ARや自動運転技術への応用に期待　3次元のAIビジョンを実現するアップルの最新AIモデル

2024.11.25

2次元から3次元認識の領域へ、進化する画像認識技術

AIを活用した画像認識技術は、2次元から3次元認識へと、その進化の方向性を大きく変えつつある。アップルのAI研究チームによって新たに開発されたAIモデル「Depth Pro」が、この流れをさらに加速する見込みだ。

Depth Proは、単一の2次元画像から詳細な3次元深度マップを生成できる技術。開発を主導したアレクセイ・ボチコフスキー氏とブラドレン・コルトゥン氏らによると、このモデルは同種の技術の中で最も高速かつ正確なシステムの一つであるという。

最大の強みは、従来の深度予測モデルで必須とされてきたカメラのメタデータ（焦点距離などの情報）を必要としない点だ。標準的なGPUを使用し、わずか0.3秒で225万画素の高解像度深度マップを生成できる。髪の毛や植物といった従来のモデルでは見落とされがちな細かいディテールまで捉えることが可能とされる。

これはマルチスケールビジョントランスフォーマーの採用によって実現した。この構造により、画像の全体的な文脈と細かいディテールを同時に処理することが可能となったのだ。「メトリック深度」と呼ばれる機能を備えている点も特筆に値する。これにより、相対的な深度だけでなく、絶対的な深度も推定することが可能という。AR（拡張現実）などのアプリケーションにおいて、バーチャルオブジェクトを物理空間に正確に配置する際に不可欠な機能だ。

また、Depth Proは「ゼロショット学習」能力を備えており、特定のドメインに特化したデータセットでの事前学習を必要としない。これにより、さまざまな種類の画像に対して高い精度で深度予測が可能となる。研究チームは、この柔軟性により、ARだけでなく画像編集、ビュー合成、条件付き画像生成まで、幅広いアプリケーションへの応用が可能になると評価している。

アップルのDepth Pro、その特徴と強み

Depth Proの技術的な優位性は、従来モデルとの比較により明確になる。特に境界検出の精度、処理速度、メトリック深度の精度という3つの重要な指標において、既存モデルを大きく上回る。

まず境界検出の精度について、Depth Proは髪の毛や毛皮、植物などの細かい構造を極めて正確に検出できる。具体的な数値で見ると、AM-2Kデータセットにおける境界検出の精度（リコール値）は0.173を記録。次点のDepth Anything v2の0.107や、Marigoldの0.064を大きく上回る結果となった。

各モデルの境界検出精度比較
https://arxiv.org/pdf/2410.02073

処理速度においても、Depth Proは圧倒的な優位性を示す。HD解像度の画像処理において、Depth Proは341.3ミリ秒で処理を完了する。これは、Marigoldの4433.6ミリ秒、PatchFusionの8万4,029.9ミリ秒と比較して、桁違いの高速性を誇る。さらに、4K解像度の画像処理においても、同様の高速性を維持している。

各モデルの処理速度比較
https://arxiv.org/pdf/2410.02073

メトリック深度の精度においても、Depth Proは既存モデルを凌駕する性能を示している。6つの主要なデータセット（Booster、ETH3D、Middlebury、NuScenes、Sintel、Sun-RGBD）における平均ランクは2.5と最も高い精度を記録。Metric3D v2の3.7やUniDepthの4.2を上回る結果となった。

また、焦点距離の推定精度においても、Depth Proは優れた性能を発揮する。PPR10Kデータセットにおいて、相対誤差25%以下の推定精度が64.6%を記録。これは次点のSPECモデル（34.6%）に比べ2倍近い高い精度となる。

驚くことにDepth Proは、これらの高い性能を特別なハードウェアや複雑な前処理を必要とせずに達成できる。標準的なGPUで動作し、単一の2次元画像から直接深度マップを生成できる点は称賛に値する。さらに、カメラの内部パラメータ（焦点距離など）を必要としない点も、実用性を高める重要な要素となる。

このように、Depth Proは深度予測の主要な性能指標において、既存モデルを大きく上回る性能を示している。高速性と高精度を両立しており、実用的なアプリケーション開発を大きく前進させる可能性を秘めている。

Depth Pro、どの分野に応用できるのか？

Depth Proの高精度な3次元認識能力は、複数の産業分野での応用可能性を持つ。特に、Eコマース、自動運転、AR（拡張現実）の3分野において、具体的なユースケースが見えつつある。

Eコマース分野では、Depth Proの高精度な深度マップ生成能力が、オンラインショッピングの体験を大きく変える可能性がある。たとえば、スマートフォンのカメラで部屋を撮影するだけで、家具がその空間にフィットするかどうかを実寸大で確認できるようになる。これは、Depth Proが実世界の測定値を提供できる「メトリック深度」機能を備えているためだ。この機能により、バーチャルオブジェクトを物理空間に正確に配置することが可能となる。

自動運転分野では、Depth Proの高速な深度マップ生成能力による車両の環境認識能力向上が期待できる。単一のカメラから、リアルタイムで高解像度の深度マップを生成できる能力は、自動運転車の障害物検知や経路計画の精度向上に貢献する可能性が高い。0.3秒という高速な処理速度は、自動運転に必要なリアルタイム性を十分に満たしているといえるだろう。

AR分野においては、Depth Proの高精度な境界検出能力が、より自然なAR体験を生み出す可能性を秘める。従来のモデルでは捉えきれなかった髪の毛や植物などの細かい構造も正確に検出できるため、バーチャルオブジェクトと実世界のオブジェクトとの自然な重なり合いを実現できる。これにより、今までにないほど高い没入感を伴うAR体験が可能になると考えられる。

Depth Proがオープンソース化されていることを鑑みると、予想を超えたユースケースが登場する可能性もある。コードとモデルの重みはGitHubで公開されており、開発者や研究者が自由に実験し、さらなる改良を加えることが可能だ。アップルの研究チームは、ロボット工学、製造業、ヘルスケア分野での活用／探索を奨励。これらの分野で新たな応用可能性が切り開かれることが期待される。

Depth Proは、以下のHugging FaceのSpacesページでデモ版を試すことができる。
https://huggingface.co/spaces/akhaliq/depth-pro

文：細谷元（Livit）