INDEX
自動運転市場は年々拡大し、自動運転技術も飛躍的な進歩を遂げている。しかし、人間のドライバーが初めて直面する状況でもこれまでの経験を応用して判断を下せるのに対し、自動運転システムは予めインプットされたデータの範囲内でしか対応できないという課題が残されていた。
この課題に対し、生成AIの一種であるLLM(大規模言語モデル)を活用し、AI自身に直接判断させるという新たな自動運転技術のアプローチが注目を集めている。
自動運転の情報処理技術は、人間の脳の動きと異なる
自動運転の研究は、2010年代にAIの一種であるDNN(ディープニュートラルネットワーク)が登場したことにより大きく前進した。DNNで様々な運転シナリオの画像やビデオを処理することで、障害物などの重要な要素を識別できるようになるのだ。
現在自動運転の設計に最も広く採用されているのは、DNNを活用した「感知・思考・行動」というフレームワークだ。まず車のセンサーデータをDNNによって処理し障害物を特定(感知)、次に障害物の軌道を予測し(思考)、最後に車の次の動作を決定(行動)する。
このアプローチは、システム内のエラーや不具合の修正がしやすいといった利点がある一方で、人間の運転の背後にある脳のメカニズムとは根本的に異なるものだ。
脳の機能についてはまだ未解明な点が多いものの、多くの研究により、人間の「感知」と「行動」は、前後関係のプロセスではなく、相互に関連したものであることがわかっている。つまり、人間は行動に必要な範囲にフォーカスした形で、環境自体を認識するということだ。
たとえば交差点で左折する準備をする際、人間のドライバーの意識は、「曲がる」という行動に関連する、特定の環境と障害物を感知することに集中する。それとは対照的に、現行の自動運転の「感知・思考・行動」のアプローチでは、直近の行動意図とは関係なく、シナリオ全体を感知→思考→行動の順に処理していく。
従来の自動運転アプローチでは未知の状況への対応が困難
人間とのもう1つの重大な違いは、DNNは蓄積された学習データに依存しているということだ。「前方に人が飛び出してきたら停止」「信号機がある場合、その指示に従って停止」など、予め想定されたシナリオ別に行動が設定されている。そのため、運転シナリオがわずかでも未知の変化をすれば、システムがエラーとなったり、重要な情報を見逃したりする危険性がある。
これまではその防止策として、発生頻度の限りなく低いイレギュラーケースも含めた膨大なトレーニングデータをDNNに学習させ、「未知の状況を無くす」という方法が取られてきた。
しかし、実際の運転環境には限りなく多くの複雑さと変動性があり、すべての可能性をカバーすることは不可能だ。「感知・思考・行動」プロセスのようなデータ主導型アプローチでは、「未知」への対処という困難を乗り越えられなかったのだ。
では人間はなぜ未知の状況に対処できるのか。それは人間が運転中に無意識に働かせている「常識」によるものだという。ここでいう常識とは、これまでの人生経験から得られた世の中についての一般的な知識や予測、人間の行動に関する直感的な理解などを指す。
この常識を働かせることによって、ドライバーは歩行者や自転車利用者、他のドライバーの行動を解釈、予測し、初めて直面する状況でも適切な判断と行動を行うことができるのだ。
マルチモーダルLLMによりAIが自ら判断を下す
自動運転時に人間の「常識」を再現することは、過去10年間にわたって業界の大きな課題であり、根本的なアプローチの変更が必要とされてきた。最近の言語領域でのAIの進歩により、ようやく解決策が見つかりつつある。
大規模言語モデル(LLM)は、ChatGPTなどのチャットボットの背後にあるテクノロジーで、人間の言語を理解し生成する優れた能力を発揮する。この能力は、様々な領域にわたる膨大な量の情報でトレーニングされたことによるもので、人間の持つ常識も習得が可能になったという。
最近では、GPT-4oやGPT-4o-miniなどのマルチモーダルLLM(テキストだけでなく画像、音声など多様な形式に対応)が登場し、言語と視覚を組み合わせた、より拡張的な知識と推論能力の獲得が可能になっている。
これらのモデルは、複雑な未知のシナリオを理解し、自然言語による説明を提供し、適切なアクションを実行することができる。これを自動運転に活用すれば、カメラや各種センサーから集めたデータを元にAI自体が状況を判断し、アクセルやハンドルの操作など適切だと思う運転動作を行うことができる。
これは従来の「○○の場合はXXと行動する」と予め設定された膨大なルールの中から現在の状況に当てはまるものを探す、というアプローチとは大きく異なり、AI自身が直接判断をする。そのため、未知の状況に直面しても、AIが過去に別のケースで学んだことを応用し、自ら対処することが可能になるのだ。
英Wayveは対話も可能なLLM型自動運転システムを開発
現在自動運転の分野では、マルチモーダルモデルを使用して、カメラや各種センサーから運転状況を解釈し、モーターをどのように動かすか決定するという基礎研究に注力している。たとえば「私の前に自転車がいて、減速し始めている」というインプットに対し、どのような意思決定プロセスがとられたかを洞察するのだ。
イギリスの自動運転スタートアップWayveが手掛ける、マルチモーダルLLMによる自動運転システムLINGO-2では、自動運転を行いながら、その運転行動を言語情報として出力する。そしてなぜその行動を選択したのかという理由も説明することができる。この説明と意思決定プロセスをモデルのトレーニングに組み込むことで、未知のシナリオを処理するためのより効率的な学習も可能になるという。
さらにLINGO-2は、自動運転中に周囲の環境や運転操作についての質問に答えることができる。たとえばユーザーが「今何か前に障害物がある?」と尋ねると、LINGO-2は「はい。自転車が前にいます。そのため減速しています」と回答する。
これは乗客が自然言語によって自動運転システムと対話するという新しい可能性を示している。
WayveのLLMによる自動運転システムには世界の大企業からも注目が集まっており、2024年5月には、ソフトバンクグループ主導で、シリーズCとして10億5,000万ドルもの資金調達を実施。マイクロソフトやNVIDIAも出資者に名を連ねている。
LLMを活用した自動運転の課題
LLMを活用した自動運転システムは「未知の状況での自己判断」という従来の課題を解決する特性を持つ一方で、商用化に向けての新たな課題も指摘されている。
まず、信頼性と安全性を評価することが、これまでの「感知・思考・行動」のようなモジュール式アプローチよりも複雑になるという点。統合LLMを含む自動運転車の各要素を検証しなければならず、新システムに合わせた新たなテスト方法が必要になる。
さらに、マルチモーダルLLMはデータサイズが大きく、コンピュータのリソースを大量に消費するため、レイテンシー(ネットワーク遅延度)が高くなってしまうという点。自動運転車はリアルタイムでの操作を必要とする一方で、現在のモデルでは十分な速さで応答を生成できないという。
また、LLMベースの自動運転を実行するにはかなりの処理能力とメモリが必要になり、車両に搭載できるハードウェアの制約とも競合する。
既にLLMを車両での使用に最適化することに注力した研究が進んでいるものの、LLMベースの自動運転車が商用化され路上で見られるようになるまでに、あと数年は掛かると予想されている。
拡大する自動運転市場とLLMベースの自動運転の可能性
世界の自動運転市場は2023年時点で1,260億ドル、2036年までには26,500億ドルと20倍以上の規模に達すると予測されている。(SDKIのレポートより)
自動運転市場は「交通事故の抑制」を大きな目標として拡大してきた。WHOによると、毎年世界で約120万人が交通事故で命を落としており、5~29歳の子どもや若者の死亡原因の第1位にもなっている。国連総会は2030年までに全世界の交通事故による死者数と負傷者数を半減させるという目標を掲げており、自動運転技術にかかる期待は大きい。
自動運転は単体の運転支援機能のレベル1から、完全自動運転のレベル5までに分類されているが、アメリカや中国では特定条件下での無人走行が可能となるレベル4の自動運転車が既に商用化されている。
アメリカで自動運転プレイヤーの先頭を走るGoogle発(Alphabet傘下)のWaymoは、既にフェニックス、サンフランシスコ、ロサンゼルスの3都市で無人の自動運転タクシーを商業運用しているが、人間による運転よりも遥かに高い安全性を示しているという。具体的には、Waymoの自動運転は人間のドライバーと比較して、エアバッグが動作する衝突事故が84%、負傷を伴う衝突事故が73%、警察に報告された衝突事故が48%少ないことが示されている。
よそ見や居眠り、ハンドルやブレーキの誤操作といったヒューマンエラーによる交通事故は、自動運転技術の適用により既に大幅減への道筋が実現しつつある。これに加えて、過去の経験を応用して未知の状況に対処するという、人間の脳と同様の動きが再現できれば、自動運転の完成度は格段に上がるだろう。LLMの活用により、近い未来に人間と同様の自律的な判断力を持った自動運転システムが完成することを期待したい。
文:平島聡子
編集:岡徳之(Livit)