物理世界での生成AI利用に向けた取り組み最前線 グーグルは人工データでロボットの動きを改善する仕組みを開発

ロボットと生成AIの融合、その契機

FigureのFigure 02やテスラのOptimusなど、周辺環境に応じて複雑なタスクをこなすことができるロボットの開発が活発化している。Optimusに関して、イーロン・マスク氏は2025年までにテスラの主要工場で1,000台以上を配備する計画を明らかにしており、今後数年以内には、人型ロボットの実用化/普及が始まるものとみられている。

こうした最新ロボット開発の背景にあるのが生成AIだ。特に、グーグルが2022年8月に発表した「SayCan」プロジェクトが大きな契機になったといわれている。

SayCanの革新性は、大規模言語モデル(LLM)の意味的知識を活用し、ロボットがタスクについて推論し、それを達成するための一連の行動を決定できるようにした点にある。ここでいう「意味的知識」とは、LLMが大量のテキストデータから学習した言葉の意味や概念間の関係性、世界に関する一般的な理解を指す。たとえば、「コップ」と「飲む」の関係、「重い」と「軽い」の違い、「キッチン」にあるものの種類などの知識が含まれる。

グーグル(2022年8月16日)の発表によれば、SayCanは「言語モデルの知識を活用して、物理的に実行可能なタスクに対して高レベルのテキスト指示に従うことを可能にする」アプローチだ。つまり、SayCanは人間が与えた抽象的な指示を、LLMの意味的知識を用いて解釈し、ロボットが実行可能な具体的な行動手順に変換する。これにより、ロボットは複雑な指示を理解し、適切な行動を選択できるようになる。

たとえば「運動後に回復のためのスナックと飲み物を持ってきて」という指示に対し、SayCanは以下のような処理を行う:

1. LLMの意味的知識を使用して、「運動後の回復」に適したスナックと飲み物の種類を理解する(例:バナナやプロテインバー、水や電解質飲料など)。
2.環境内で利用可能なアイテムと照合し、最適な選択肢を特定する。
3.アイテムの位置を把握し、取得するための移動経路を計画する。
4.物体をつかむ、運ぶなどの具体的な動作シーケンスを生成する。

このように、SayCanはLLMの意味的知識を活用することで、人間の高レベル/抽象的な指示をロボットの具体的な行動に変換し、複雑なタスクの実行を可能にしている。

SayCanの登場以降、ロボティクス分野における言語モデル/ビジョンモデルの活用を模索する動きが活発化、さまざまなプロジェクトが立ち上がり、現在ではFigureやOptimusがその可能性を体現する存在となっている。

グーグル・ディープマインドの最新研究、生成AIとロボットの融合を加速する可能性

テキスト生成モデルの開発ではOpenAIやAnthropicなどに遅れをとったグーグルだが、ロボティクスにおける生成AI活用では「SayCan」のほかにも際立つ成果をあげている。その1つが「DAAG(Diffusion Augmented Agents)」と呼ばれる技術だ。

DAAGは、ロンドン・インペリアル・カレッジとグーグル・ディープマインドの研究チームが共同で開発した物理世界と相互作用できるAIエージェントのフレームワークだ。LLM、ビジョンモデル、拡散モデルを組み合わせ、エージェントの学習効率と転移学習能力を向上させることを目的としている。聞き慣れない「拡散モデル(diffusion model)」とは、画像生成で広く知られるStable Diffusionでも使われるAIモデルを指す。

DAAGの特徴は、過去の経験を活用して効果的に探索し、タスク間で知識を転移できる点にある。これは「Hindsight Experience Augmentation(HEA)」と呼ばれる新しいプロセスによって実現される。HEAは、視覚言語モデル(VLM)と拡散モデルを巧みに組み合わせ、エージェントのメモリを拡張。この手法により、エージェントは物理的な相互作用を行わずに、さまざまな可能性を探ることが可能となるのだ。

HEAの機能は、過去の経験の分析から始まる。エージェントが以前に遭遇した状況や実行したタスクをVLMが分析し、現在のタスクに関連する過去の経験を特定する。そして、拡散モデルを用いて、関連する過去の経験を現在のタスクに適用できるよう変換する。たとえば、エージェントが「赤いカップをテーブルに置く」というタスクを学習した後、「青い皿を棚に置く」という新しいタスクに直面した場合、HEAは過去の経験を活用して新しいタスクの解決方法を「想像」することができる。

HEAのプロセスをさらに具体的に解説すると以下のようになる。

まず、視覚言語モデル(VLM)が、エージェントの「経験バッファ」に蓄積された過去のタスク実行時の画像や動画を分析する。これは、人間が過去の経験を思い出し、新しい状況に適用する過程に似ている。

次に、VLMは、この分析された過去の経験を現在のタスクの目標(サブゴール)と照らし合わせる。たとえば、「コップを棚に置く」というタスクに関連する過去の経験があれば、それを抽出し、現在のタスク実行の参考にする。

関連する過去の経験が見つかった場合、それをエージェントの「新しいバッファ」(作業メモリのようなもの)に追加。これにより、エージェントは過去の成功例を参考に、現在のタスクを効率的に実行できる。

しかし、完全に新しいタスクに直面した場合など、関連する過去の経験がない場合がある。そこで活躍するのが拡散モデルだ。このモデルは、既存の経験を基に、新しいタスクに適した仮想的な経験データを生成する。これは、人間が想像力を働かせて未経験の状況に対処するのに似ている。

元のタスク:緑色のカップをつかむ、新しいタスク:赤色のカップをつかむ
※拡散モデルが緑色のカップを赤色に変換し、新しいタスクをシミュレートする様子
DAAGリサーチペーパーより(https://arxiv.org/pdf/2407.20798v1

この一連のプロセスにより、限られた経験からでも、幅広いタスクに対応できる柔軟性をロボットに与えることが可能となった。

さらに、DAAGは以前のタスクからデータを効果的に再利用し、新しい目標の学習プロセスを加速する能力も示した。これは、継続的に学習し、新しい状況に適応できるエージェントを開発する上で重要な要素となる。

研究チームは「このフレームワークは、ロボット学習におけるデータ不足を克服し、より一般的な能力を持つエージェントを開発するための有望な方向性を示唆している」と結論付けている。

ロボットに豊かな表現力を与える研究も

グーグルはこのほかにも、生成AIを活用しロボットに感情を与えるプロジェクトにも関与している。トロント大学、グーグル・ディープマインド、ホク・ラボの研究チームが発表した「GenEM(Generative Expressive Motion)」と呼ばれる技術だ。

GenEMは、LLMに含まれる豊富な社会的文脈を利用して、ロボットの動きに表現を加える仕組み。従来の手法は、ルールベースやテンプレートベースのシステムを用いるもので、柔軟性に欠ける弱点があった。これに対しGenEMは、LLMを使用したコンテキスト理解、またそれに基づく適切な表現の選択により、ロボットの表現の柔軟性を大幅に上げることに成功した。

GenEMのプロセス GenEMリサーチペーパーより(https://arxiv.org/pdf/2401.14673v2

GenEMは以下のようなプロセスで、ロボットを表現豊かにする。

まず、たとえば「通りがかりの人があなた(ロボット)に手を振っている」といった状況を記述し、システムに入力することができる。これらの入力に対し、大規模言語モデル(LLM)が人間らしい反応を推論し、どのような反応が(社会的に)適切かを考える。

次に、別のLLMが、この人間らしい反応をロボットが実行可能な具体的な動作に変換する。たとえば、「うなずく」という人間の動作を、ロボットの頭部を上下に動かすという具体的な指示に変える。また「笑顔」のような表情は、ロボットの前面ディスプレイに特定の光パターンを表示するなどで表現することが可能だ。

研究チームによると、GenEMは様々な種類のロボットに適用可能で、人間からのフィードバックに基づいて動作を調整できるという。さらに、ユーザー評価では、プロのアニメーターが作成した動作と同程度の理解しやすさだったと報告されている。

この技術により、ロボットとのコミュニケーションがより自然で効果的になる可能性がある。介護ロボットが患者の表情を読み取り適切に反応したり、カスタマーロボットがより親しみやすい態度で接客したりすることが可能になるかもしれない。

文:細谷元(Livit

モバイルバージョンを終了