三菱電機は、同社AI技術「MaisartⓇ」を用いて、車載機器やロボットなどのさまざまな機器が複数のセンサーを用いて収集した情報(マルチモーダルセンシング情報)から周囲の状況を理解し、人と自然な言葉で円滑な意思疎通ができる「Scene-Aware Interaction技術」を開発した。
今回の開発の特長として、独自のEnd-to-End深層学習により、人と機器の円滑な意思疎通を実現したことを挙げている。
End-to-End深層学習は、カメラで撮影した画像情報、マイクロフォンで集音した音響情報、ライダーやレーダーで取得した位置情報などのマルチモーダルセンシング情報から、周囲で起きている状況を機器が理解する。
マルチモーダルセンシング情報の中で重要度の高い情報に自動で重み付けを行う、独自のマルチモーダル・アテンション法を用いて、機器が理解した内容に対し自然な言葉を用いて詳細に表現するような学習モデルを構築。
これにより、機器が理解したこれまでの状況や人の発話の履歴から自然な言葉を生成することで、人と機器との円滑な意思疎通を実現したとのことだ。