近年、動画コンテンツの需要が急速に拡大している。市場調査情報を提供するStatistaによると、2020年には、年齢を問わず世界の30億人以上が、少なくとも月に1回はデバイスを介してストリーミングビデオを視聴したり、ダウンロードしたりしていた。

そして、2023年にはその数はさらに増加して35億人近くになると予測されている。プロモーションや広告においても、動画がもはやデフォルトのフォーマットになっている。

このような背景から、AI技術を活用した動画編集ツールが次々と登場し、投資家の関心を集めている。例えば、アメリカのベンチャー「Wisecut」は、シリコンバレーの著名な投資家ティム・ドレイパー氏から100万ドルの投資を受けた。2017年創立のイギリスの「Synthesia」は、アメリカのGPU設計大手の半導体メーカーNvidiaを含む投資家から9,000万ドルを調達。

こうした動画編集ツールに資金投入が増えているのは、動画編集が今、最もエキサイティングな分野であるからだ。AI技術は、様々な産業に変革をもたらしているが、特に動画編集においては革命と言ってもよいほど制作や編集のあり方を変え、クリエイターの創造性や視覚的なストーリーテリングの可能性を広げている。

AI技術によって動画編集がどのように変革しているのか、最新技術や今注目されているプラットフォームを紹介しつつ、探ってみたい。

ゲームチェンジャーの自動編集

AI技術は制作から編集に至るまで、さまざまなプロセスを変化させている。手作業による作業がアルゴリズムや機械学習モデルに置き換わることで、劇的な効率化が実現されているのだ。

例えば、スポーツ試合のハイライト映像を作成する場合、エディターが膨大な時間をかけてベストシーンを選び出していたが、AIが試合のテンポや選手の動き、観客の反応などの分析に基づき、自動的にハイライトシーンを生成。

また、数時間にわたるドキュメンタリーの映像素材から、事前に定義したルールに基づいて重要な瞬間を識別し、より視聴者に訴えるシーンで予告動画を完成させることも可能だ。時間とリソースを大幅に節約しながらも品質は損なわれることなく、厳しい納期も守ることもできる。

精度と創造性の融合

AIによる自動編集は効率化にとどまらない。物体識別とトラッキング機能などは、ターゲットのオブジェクトに関して一貫した編集が行えるため、精度が向上するだけではなく、手作業では実現が難しかった細かいビジュアル効果も追加することができる。

例えば、カーチェイスシーンで車の加速、ブレーキ、衝突などを細かく識別し、それぞれのシーンに合ったビジュアル効果を加えることで、リアルな映像とバーチャルな要素を組み合わせた迫力のあるシーンの作成が可能。物体だけではなく、人の顔の表情も識別することもできる。それらをカテゴリー分け、クリップ分類、タグ付けなど細かく仕分することで、検索や管理が容易なコンテンツライブラリを構築することもできる。

ストーリーテリングの景色を変えるNLP

AI技術のうち、コンテンツクリエイターたちがこぞって注目しているのが自動言語処理(NLP)の機能だ。映像の中で話された言語をテキストに変換して、機械学習技術によって、話し手のアクセントや話し方に関係なく音声を正確に文字に起こすことができる機能で、映像のテキスト検索やテーマに沿った要約も可能だ。

また、NLPは感情分析もできることから、ソーシャルメディア上のコメントなどの視聴者のフィードバックを学習し、そのパターンを分析して、視聴者と強いつながりをもったストーリーを作り出すこともできる。

注目のプラットフォーム

2023年、注目を集めた4つの動画編集プラットフォームとそれぞれの特徴を挙げてみよう。

Wisecut(アメリカ)

3時間のビデオクリップを1分のコンテンツに圧縮する能力をもつ。今回の投資資金を活用し、OpenAIのGPT-4技術を導入、長時間のビデオからテーマに沿ったスニペットを自動生成する機能を追加する予定。

重要なシーンを分析し、3時間の収録を1分に凝縮する。

Synthesia(イギリス)

AIによる合成音声(TTS)を推し進めている。アバターを選び、文字入力すると数分でプレゼンターが生成され選ばれた言語で話す。120言語以上に対応。

顧客数は5万人以上、前年比ユーザー成長率は456%、これまでに生成された動画は1500万本以上とCEOが述べている

Pictory(アメリカ)

ブログ投稿や記事、その他のテキストベースのドキュメントなど長尺のコンテンツから最良の部分を自動的に抽出し、300万以上のストック映像、画像、音楽、テキストと組み合わせて高品質な映像を作成する。

スクリプトやブログ記事を動画に変換するほか、テキスト機能を使ってビデオ編集もできる。

Neural Frames(ドイツ)

音楽ビデオとアニメーションのジェネレーター。AIのプロンプトアシストでアニメーションを生成するほか、音楽のムードやビートを分析し、音楽にマッチしたビデオをリアルタイムに作成。

27億枚の画像を学習したAIが、入力されたプロンプトに基づいてイメージを生成する。

クリエイターの強力なツール

AIが人間に取って代わるという議論はよくある。動画編集の業界も例外ではなく、スクリプト起こしなど淘汰される職種は確かにあるだろう。だが、業界にいるコンテンツクリエイターたちは、むしろ新しい可能性にワクワクしているのではないだろうか。なぜなら制作の大部分を新しい表現の探求に注ぎ込むことができるからだ。

拡張現実や仮想環境を実写映像にシームレスに統合させることで、クリエイターは自分のビジョンをより具現化できるようになる。無論、プライバシーやデータセキュリティ、アルゴリズムなどに関するガイドラインや倫理的な枠組み構築などの課題はあるが、AIによるビジュアルストーリーテリングのポテンシャルは、動画の芸術性およびその影響力を新たな高みに押し上げている。

その可能性を引き出すのは人間の創造力だ。人間の創造力がなくてはAIの驚異的な能力は発揮されないし、AIの驚異的な能力がなければ人間の創造力も限られてしまう。両方が互いを補完することで新たな領域に進むことができるのだ。

文:水迫尚子
編集:岡徳之(Livit