動画生成AI市場、高まる既存プレイヤーへの圧力

動画生成AI市場の競争が新たな段階に突入した。これまでRunwayやPika、Lumaなどプレイヤー数は限定的だったが、ここにきてオープンソースモデルの参入が相次いでおり競争が一層激化している。これを受け先行プレイヤーは、単なる動画生成にとどまらず、動画編集に関わる実用的な機能の搭載など、差別化を模索する動きを活発化している状況だ。

たとえばRunwayは2024年11月、最新モデル「Gen-3 Alpha Turbo」に高度なカメラコントロール機能を追加したことを発表した。この機能により、3次元空間内でのズームインやズームアウト、パン操作などが可能となり、実際の撮影現場のような臨場感のある映像生成を実現。さらに、カメラの移動方向や動きの強さを細かく設定するなどのカスタマイズにも対応している。

3次元のカメラワークを可能にする新機能(Runway X投稿より)
https://x.com/runwayml/status/1852363185916932182

Runwayはまた、「Act-One」という新機能も投入。スマートフォンなどの一般的なカメラで撮影した人物の表情を、AI生成キャラクターに正確に転写できる機能だ。従来、このような表情の再現には、高価な機材や複雑な作業工程が必要だった。映画『アバター』などの映画では、俳優の顔にマーカーを貼り、頭部にカメラを装着するなどの手法が使われてきた。この新機能は、予算が限定される小規模プロジェクトチームなどでの活用が想定される。

一方、Pikaも独自の進化を遂げている。直近では、無料のAI特殊効果「Pikaffects」を次々と追加。崩壊(crumble)、溶解(dissolve)、収縮(deflate)、膨張(inflate)、消失(ta-da)、といった視覚効果を、ウェブベースで簡単に適用できる。画像をアップロードし、「Pikaeffect」ボタンで効果を選択するだけで、対応する動画を生成できる仕組みだ。

Pikaの崩壊エフェクト(Pika X投稿より)
https://x.com/pika_labs/status/1846295401491845213

崩壊などの特殊効果を作成するには、一般的にコンピュータグラフィックスを含む複雑で時間を要するワークフローになるため、コストも高くなる傾向にある。Pikaの新機能は、この制約を打ち破るものになると期待される。

オープンソース戦略を取る新規プレイヤーの台頭:Genmoの動き

大規模言語モデル市場では、クローズドモデルで市場を席巻したOpenAIやAnthropicに対しメタがオープンソース戦略で挑んでいるが、動画生成AI市場でも同様の動きが活発化しつつある。

オープンソースの動画生成AIモデル開発で注目される企業の1つが、このほど2840万ドルのシリーズAラウンドを完了したGenmoだ。

同社は2024年10月、オープンソースモデル「Mochi 1」を発表した。RunwayのGen-3 AlphaやLuma AIのDream Machineなど、既存の商用モデルと同等以上のパフォーマンスを実現したとされる高精度モデル。

Mochi 1が生成した動画(Genmoウェブサイトより)
https://www.genmo.ai/

特筆すべきは、Apache 2.0ライセンスの下で提供されており、基本的には無料で商用利用できる点だろう。競合サービスであるRunwayの年間契約無制限プランが月額76ドル、Hailuoの無制限プランが月額94.99ドルなどと高額であることを鑑みると、無料で利用できるMochi 1の魅力はかなり高い。ただし、自前の環境で運用する場合、最低4台のNVIDIA H100 GPUが必要となるなど、技術的なハードルは低くない。

Mochi 1は、Genmo独自の「Asymmetric Diffusion Transformer(AsymmDiT)」アーキテクチャに基づいて構築された。パラメータ数は100億と、これまでにリリースされたオープンソースの動画生成モデルとしては最大規模となる。特に視覚的な推論に重点を置いており、動画データの処理にテキストの4倍のパラメータを割り当てているという。

現在は480pモデルが利用可能で、年内にはより高解像度の「Mochi 1 HD」が投入される予定だ。ただし、プレビュー版には一定の制限がある。現バージョンは480p解像度のみをサポートし、複雑な動きを伴うケースでは軽微な視覚的歪みが発生する可能性がある。また、写実的なスタイルには強みを持つものの、アニメーション系のコンテンツは苦手としている。

写実的なスタイルには強みを持つMochi 1の生成動画(Genmoウェブサイトより)
https://www.genmo.ai/

Genmoは将来的に、この動画技術をベースとしつつ、ロボティクスや自動運転システムの開発にも応用可能な高度シミュレーターの構築も目指す考えだ。

Lightricksは、高速性を売りとするオープンソース動画生成モデルを投入

人気の写真編集アプリ「Facetune」で知られるイスラエルのLightricksも高度な動画生成AIモデル「LTX Video(LTXV)」をオープンソースで公開したことで注目を集めている。わずか4秒で5秒間の高品質動画を生成できる、処理スピードに強みを持つモデルだ。

LTXVモデルで生成された動画
https://www.lightricks.com/ltxv

LightricksのCEOであるジーブ・ファーブマン氏はVentureBeatの取材で、基盤モデルはコモディティ化し、ビジネスの核心にはなり得ないと指摘。「スタートアップが真剣に競争していくためには、技術をオープンにする必要がある。世界中のトップ大学の研究者がモデルにアクセスし、新たな機能を追加できる環境を整えることが重要だ」と主張する。また、LTXVの展開をメタのLlamaモデルのリリースに例えている。Llamaは急速にAIコミュニティで採用され、ChatGPTが支配する領域でメタの存在感を高めることに貢献した。コミュニティや学術界に採用されることは、企業にとって大きな利益をもたらすとの見解だ。

LTXVは20億のパラメータを持ち、NVIDIAのRTX 4090などの一般的なGPUでも効率的に動作するよう設計されている。上記のMochi 1と比べても、かなり軽量・高速であることがうかがえる。

LTXVモデルで生成された動画
https://www.lightricks.com/ltxv

RTX 4090よりもさらに強力なH100 GPUを使用すると、768×512解像度で121フレーム(5秒間)の動画を4秒で生成可能という。一般向けのハードウェアでもほぼリアルタイムのパフォーマンスを実現し、同種のモデルの中で最速クラスの性能を実現している。技術的には、拡散トランスフォーマーアーキテクチャが採用されており、これによりフレーム間の滑らかな動きと構造的な一貫性が維持されている。

動画生成分野は、こうしたオープンソース戦略を取るスタートアップだけでなく、アドビなどの大手企業も参入を見据えており、Runwayなど既存プレイヤーへのプレッシャーは強くなるばかりだ。

文:細谷元(Livit