2025.3.2

グーグルの動画生成AI「Veo 2」、物理認識に強みでリアルな動きを再現ーー動画生成AIの実用化競争が本格化

INDEX

物理法則の理解と人の動きの再現性に優れるVeo 2、高い評価を獲得

動画生成AI分野では、物理シミュレーションの向上やシネマティック機能の実装など、実用性を高める取り組みが活発化しつつある。

グーグルが2024年12月に発表した動画生成AIモデル「Veo 2」はその1つ。

同社によると、このモデルは従来の動画生成AIが苦手としてきた物理法則に対する認識と人間の動きの表現において、大幅な進化を遂げたという。たとえば、自動車の走行やドリフトシーンにおいて、物理法則を加味した形で、高い忠実度で再現できるようになった。

Veo 2が生成した自動車の走行シーン（グーグルウェブサイトより）
https://deepmind.google/technologies/veo/veo-2/

また、プロンプト（指示）への忠実度も大きく向上した。同社が実施した内部テストでは、「全体的な好感度」および「プロンプトへの忠実度」という2つの指標において、オープンAIの動画生成モデル「Sora」をはじめとする競合モデルを上回る評価を獲得。とりわけ、ユーザーが与えた指示内容をどれだけ正確に反映できているかを示す「プロンプトへの忠実度」では、高いスコアを記録した。プロンプトへの忠実度で、対SoraにおけるVeo 2の優位性は58％以上だ。

Veo 2と競合モデルの比較
https://deepmind.google/technologies/veo/veo-2/

さらに映像制作における専門用語に対する理解度が向上した点も特筆に値する。映画のジャンルやレンズの種類、さまざまな映像効果など、映像制作に関する指示を理解し、4K解像度での動画生成に対応できるようになった。プロフェッショナルな映像制作者のニーズに対応するのが狙いだ。

ただし、グーグルはVeo 2にも改善の余地があることを認めている。一例として、人物の指の数が不自然になるなどの「ハルシネーション（誤認識）」は依然として発生する可能性があるという。ただし、従来モデルと比較すると、こうした問題の発生頻度は大幅に低減したとされる。

生成された動画には、AIによって作成されたことを示す同社独自のメタデータウォーターマーク「SynthID」が付与される。

Veo 2は、グーグルラボの「VideoFX」プラットフォーム上で提供される予定だが、2025年1月21日時点において、アクセス権はウェイトリストベースで付与される形式となっている。

透明効果の生成を可能にしたアドビの「TransPixar」、VFX制作の革新へ

プロの映像制作者をターゲットとするAI機能の開発は、他の大手プレイヤーも注目するところ。

アドビは、香港科技大学（HKUST）と共同でVFX（視覚効果）に焦点を当てたAIシステム「TransPixar」を開発したばかりだ。

通常の動画は、RGB（Red：赤、Green：緑、Blue：青）の3つの色情報で構成されている。従来の動画AIが生成しているのは、これをベースとするRGB動画だ。RGB動画をそのまま利用するのであれば問題ないが、最近では、煙、炎、反射などVFX（視覚効果）を加えるケースがほとんど。VFXを加える場合、RGBだけでなくAlpha（透明度）の要素が必須となり、動画はRGBA形式として生成される必要が出てくる。

一方、透明度を制御するAlphaチャンネルを含むRGBA動画の生成は、データセットの制限や既存モデルの適応の難しさから、これまで大きな課題となってきた。

TransPixarは、RGBA動画の生成を可能にするモデル。従来のVFX制作では、説得力のある透明効果を作り出すためにアーティストによる膨大な手作業が行われてきたが、TransPixarが登場したことで、この手作業を大幅に削減できる可能性が出てきたのだ。

実際のデモでは、雷エフェクト、マジカルポータル、砕け散るガラス、立ち昇る炎など、多様な効果をシンプルなテキストプロンプトから生成することに成功。さらに、静止画に透明効果を付加したアニメーションの生成も可能で、アーティストやデザイナーに新たな創作の可能性を示している。

Alphaチャンネルとともに生成されたマジカルポータル（TransPixar研究レポートより）
https://wileewang.github.io/TransPixar/

研究チームは、GitHubでコードを公開し、Hugging Face上にデモを展開。開発者や研究者が技術を検証できる環境を整えた。大規模なスタジオだけでなく、高額なエフェクト制作費用を負担できない小規模スタジオにとって、今後コスト削減の切り札になる可能性を秘めている。

プロフェッショナル向け映像生成AIの新潮流、Runwayが示す実用性重視の方向性

動画AIの先行プレイヤーの1つRunwayがリリースした新モデル「Frames」も今後の動画AI分野の方向性を形成する重要な要素となるはずだ。

Framesは、映画的（シネマティック）表現を可能にする画像AIモデル。動画そのものを生成するのではなく、動画の構図やスタイルをディレクトするための静止画を生成する。たとえば、Framesで任意の構図やスタイルを決め、それを元に同社の動画生成AIモデルで動画を生成するという流れになる。

Framesが生成したスタイル画像（Runwayウェブサイトより）
https://runwayml.com/worlds-of-frames

2024年11月に発表されたFramesは、当初は選ばれたRunway Creatorsプログラムのアンバサダーとパワーユーザーにのみ提供されていた。現在は月額95ドル（年間契約の場合912ドル）のUnlimitedプラン、もしくは年間1,500ドルのEnterpriseプランを通じて、すべてのユーザーが利用可能となっている。

Runwayの共同創業者兼CEOであるクリストバル・バレンズエラ氏はXの投稿で、「Framesは、プロフェッショナルなクリエイティブワークのために一から設計された。編集、アートディレクション、プリビズ、ブランド開発、制作などに携わるユーザーのためのモデルだ」と説明。プロンプティングシステムにより、繊細でナチュラルな、映画的な構図を実現できると強調している。

従来のAIを用いた動画制作では、スタイルはランダムになりがちで世界観の一貫性を保つことは非常に困難だった。Framesを活用することで、固有の視覚的アイデンティティを確立し、そのスタイルに忠実なバリエーションを生成できるようになる。これにより、アーティスト、デザイナー、映画製作者などプロユーザーを囲い込む狙いだ。

文：細谷元（Livit）

グーグルの動画生成AI「Veo 2」、物理認識に強みでリアルな動きを再現ーー動画生成AIの実用化競争が本格化

物理法則の理解と人の動きの再現性に優れるVeo 2、高い評価を獲得

透明効果の生成を可能にしたアドビの「TransPixar」、VFX制作の革新へ

プロフェッショナル向け映像生成AIの新潮流、Runwayが示す実用性重視の方向性

Twitter Vote

Vote