2024.9.3

生成AIの登場で加速するロボット開発　「Open-TeleVision」など最新アプローチに注目

INDEX

生成AIで激変するロボット市場の動向

生成AI技術の急速な進歩により、ロボット市場は大きな変革期を迎えている。従来の産業用ロボットに加え、人間型ロボット（ヒューマノイド）の開発と実用化が加速しており、製造業を中心に様々な分野での導入が進んでいるのだ。

カリフォルニアのロボティクス企業Figureは、2024年1月にBMWと初の商業契約を締結し、同社の人型ロボット「Figure 01」をBMWの米国サウスカロライナ州スパータンバーグ工場に導入することを発表。これに関して、Figureは2024年7月に動画を公開、Figure 01が自動車組立プロセスに参加する様子を披露した。

注目すべきは、Figure 01が完全に自律的に動作している点だ。ロボットの操作はすべて、視覚情報を直接アクションにマッピングするニューラルネットワークによって駆動されている。この技術により、ロボットは環境を認識し、適切な動作を自律的に選択することができるという。

Figure 01は、高さ1.6メートル、重量60キログラム、最大積載量20キログラムの完全電動式ロボットで、1回の充電で5時間稼働可能だ。その能力は多岐にわたり、板金の取り扱い、ボディショップでの作業、倉庫の管理など、幅広い製造業務をこなすことができる。

一方、テスラのイーロン・マスクCEOも、同社の人型ロボット「Optimus」の開発に大きな期待を寄せている。マスクCEOは2024年6月の株主総会で、2025年までにテスラの工場で1,000台以上のOptimusロボットが稼働する可能性があると発言。さらに、人型ロボット市場は年間10億台規模になる可能性があり、テスラは少なくとも10％のシェアを獲得できるとの見方を示している。

マスクCEOは、Optimusロボットの製造コストを1台あたり約1万ドル、販売価格を2万ドルと想定しており、これにより1兆ドルの利益を生み出せる可能性があると主張している。さらに、2026年までにOptimusのソフトウェアをカスタマイズ可能にする計画も明らかにした。

しかし、マスクCEOの予測には慎重な見方も必要だ。彼は自身を「病的な楽観主義者（pathological optimist）」と表現しており、過去にも自動運転技術の実現時期などについて、現実とはかけ離れた予測を行ってきた経緯がある。

ロボットと人間の知性を統合する試みも、「Open‐TeleVision」

生成AIの進化により、ロボットの自律性が向上する一方で、人間の知性をロボット制御に直接統合しようという試みも進んでいる。その代表例が、マサチューセッツ工科大学（MIT）とカリフォルニア大学サンディエゴ校（UCSD）の研究チームが2024年7月に発表した「Open-TeleVision」システムだ。

Open-TeleVisionは、オペレーターがロボットの周囲を立体的に認識しながら、自身の手や腕の動きをロボットに反映させることができる遠隔操作システム。研究チームは、このシステムについて「オペレーターの心がロボットの身体に転送されたかのような没入感のある体験を生み出す」と説明している。

Open-TeleVisionシステムの最大の特徴は、立体視（3D）による視覚情報と、自由に動かせるカメラ機能を組み合わせた点にある。ロボットの頭部に特殊な3Dカメラ（アクティブステレオRGBカメラ）が1台取り付けられている。このカメラは、オペレーターがMRヘッドセットを装着して頭を動かすと、それに連動して動く仕組みになっている。

カメラが捉えた映像は、即座に立体的な3D映像としてオペレーターのVRデバイスに送られる。この仕組みにより、オペレーターはまるでロボットになったかのような感覚で、ロボットの周りの状況を3Dで見ることができる。人間が自然に頭を動かして周囲を見回すように、ロボットの「目」を自由に動かして周囲を確認できるのだ。

Open-TeleVisionシステムが提供する一人称視点と能動的な視覚制御は、ロボットの遠隔操作と学習の両面で大きな利点をもたらす。

遠隔操作の面では、オペレーターはまるで自分の目でロボットの周囲を見ているかのように、ロボットの「頭」を自由に動かすことができる。これにより、作業環境全体を見渡したり、特定の対象物に注目することが直感的に行える。たとえば、作業台の上の小さな部品を探す際、人間が自然に頭を動かして探すように、ロボットの視点を制御できる。

一方、機械学習の観点からも、このシステムは有益である。ロボットは人間のオペレーターの動きを観察し、「頭の動かし方」も含めた全体的な作業の流れを学習する。つまり、単に手や腕の動きだけでなく、視線の向け方や注意の向け方まで模倣することができるのである。これにより、より人間らしい、自然な動きをするロボットの開発につながる可能性がある。

このシステムは、災害対応や遠隔手術、宇宙探査、産業機械の保守など、幅広い分野での応用が期待される。特筆すべきは、インターネットを介したオペレーターによる遠隔制御を可能にした点だ。実際に、MITにいる研究者の一人が、約4,800キロ離れたUCSDにあるロボットを遠隔操作することに成功している。

ロボットの操作は、人間の手の動きをVRデバイスで捉え、それを数値化し、ロボットに転送することで可能になっている。この実験では、アップルのVisionProとメタのQuestが使用された。Open-TeleVisionは、VRデバイスのセンサー精度の向上により、可能になった技術といっても過言ではなく、今後手の動きを捉えるセンサー精度はVRデバイス開発における注目点になっていくと考えられる。

アップルVisionPro活用した同様の研究が増える可能性も

上記のように、アップルのVisionProなど最新のMR／VRヘッドセットのセンサー技術を使ったロボット操作の研究は、今後さらに増えていくものと思われる。MITの別の研究グループが、VisionProのトラッキング機能をロボット制御に応用するためのツールキットを開発し、オープンソースで公開したためだ。Open-TeleVisionの研究でも、この論文が参考文献にあがっており、利用された可能性がある。

VisionProは、装着者の頭部、手首、指の動きを高精度でトラッキングする機能を持つ。これらのデータは、人間の実世界での行動を記録したり、直感的な動作でロボットを遠隔操作したりするのに適している。また、バーチャル／拡張現実機能を活用することで、ロボットの遠隔操作時により没入感のある体験を提供できる可能性がある。

開発されたツールキットは、VisionProからトラッキングデータを取得し、同じネットワーク上の任意のクライアントデバイスにストリーミングできるライブラリを提供している。このライブラリは簡単に使用でき、LinuxやMac、Windowsなど幅広いデバイスからデータにアクセスできるよう設計されているという。

VisionProが捉えるデータには、部屋全体（グローバルフレーム）を基準とした頭部と両手首の位置と向き、そして手首を基準とした25の指関節の位置と向きが含まれる。これらのデータは、3D空間での位置と向きを表すSE（3）形式（Special Euclidean group in three dimensions＝3次元特殊ユークリッド群）で提供される。さらに、ツールキットは親指と人差し指の間の距離や手首の回転角度といった、ロボット制御に役立つ追加情報も計算して提供している。これらのデータを利用することで、開発者は人間の複雑な動きをロボットに正確に伝え、制御することが可能になる。

しかし、VisionProを活用する上でいくつかの注意点もある。たとえば、エレベーターや飛行機、車など動く閉鎖空間内では、デバイスの位置推定に失敗する可能性がある。また、わずかな上り坂や下り坂を移動すると、ユーザーが気付かないうちにZ座標が変化してしまう場合がある。さらに、手を完全に下げた状態ではVisionProが手を検出できないため、トラッキングデータにノイズが生じる可能性が指摘されている。

今後の計画として、研究チームはアップルのARKitやRealityKitを使用したロボット応用のための機能を追加していく予定だ。特に、シミュレーション／実世界とVisionPro間の双方向接続の可能性を探ることが次の段階として検討されているという。

VisionProを活用したこのような取り組みは、人間の知性とロボット工学を融合させる新たなアプローチとして注目される。ロボットの遠隔操作や学習において、より直感的で効果的な方法を提供する可能性を秘めており、今後の発展が期待される。

文：細谷元（Livit）

生成AIの登場で加速するロボット開発 「Open-TeleVision」など最新アプローチに注目

生成AIで激変するロボット市場の動向

ロボットと人間の知性を統合する試みも、「Open‐TeleVision」

アップルVisionPro活用した同様の研究が増える可能性も

Twitter Vote

生成AIの登場で加速するロボット開発　「Open-TeleVision」など最新アプローチに注目

Vote