INDEX
YouTubeにジェネレーティブAIツールが登場
ChatGPTの登場によりビジネス環境が大きく変化したグーグルは、現在同社が展開する各プロダクトへのジェネレーティブAI統合を加速している。
2023年9月21日の「Made on YouTube」イベントでは、YouTubeにさまざまなジェネレーティブAIツールを導入することを発表した。
その1つ「Dream Screen」は、YouTubeの短編動画Shorts向けに動画や背景を生成できる新機能。テキストによるプロンプトを入力すると、それに沿った動画を生成することが可能だ。イベントのデモでは、「コーヒーを飲むパンダ」やSFテーマの背景動画などが披露された。この新機能は、年内に一部のクリエイターに提供開始され、来年から本格展開される予定という。
現在、一般的に映像系ジェネレーティブAIは、静止画では写真と見間違えるほど非常にハイクオリティな画像を生成できるようになったが、動画生成では依然としてハイクオリティ映像を生成することは困難だ。生成された動画は、ジェネレーティブAIツールが生成したと一目で分かるものであり、今後さらなる改善が求められる。
動画生成AI分野で先行するRunwayの最新AIモデル「Gen2」で「コーヒーを飲むパンダ(Panda drinking coffee)」というシンプルなプロンプトを入力すると、以下のような動画が生成 (生成例1)される。パンダのデザインが崩壊しており、利用できるシーンは限定的だ。動画のクオリティは、プロンプトを工夫することで、多少改善される可能性(生成例2)があるが、その試行錯誤には多くの時間が必要となる。
今回、YouTubeが披露したDream Screenによる「コーヒーを飲むパンダ」動画なども、ジェネレーティブAIが生成したことが簡単に分かるもので、本格展開までに映像クオリティをどこまで改善できるのかが注目される。
楽曲検索や多言語吹き替えなどのAIツールも登場
Dream Screen以外にも、複数のAIツールが発表された。
1つは、YouTube Studio内で利用できる楽曲検索機能だ。クリエイターは、動画の説明とどのような楽曲を探しているかを入力すると、AIが動画に合う適切な楽曲をおすすめしてくれる。楽曲の長さなども指定できるという。この新機能は、2024年から提供開始される予定だ。
またAIインサイト機能も来年から利用できるようになる。これは、ジェネレーティブAIがYouTubeの視聴データに基づいて最適な動画アイデアやアウトラインを生成する機能。
発表イベントでは、旅行系コンテンツを配信するMahna Ghaforiチャンネルを事例に、AIインサイトツールが動画アイデアを生成。同チャンネル登録者の視聴データから、ポルトガルの歴史に関する動画アイデアを提案した。
AIインサイトツールは、現在一部のクリエイターに試験的に提供されており、初期テスト段階では、アンケート回答者のうち70%以上がAIインサイトの動画アイデアが役に立ったと答えたという。
さらに、来年にはAloudによるジェネレーティブAI吹き替えツールの導入も予定されている。
このAI吹き替えツールは、動画のオリジナル言語を自動で多言語に吹き替えするもので、視聴者側は動画の言語変更オプションから簡単に言語を変更することが可能となる。現在、すでに一部のクリエイターらに提供されており、そのクリエイターが配信する動画の視聴時に同機能をオンにすることができる。現時点では、オリジナルの声の多言語クローンを生成する機能や吹き替えに合わせて口の動きを調整する機能などはない。
現在のジェネレーティブAIテクノロジーを駆使すれば、楽曲そのものを生成することも可能だが、YouTubeの今回のイベントでは発表されなかったようだ。
音楽生成に関しては、SoundrawやBoomyなど、ジェネレーティブAIによる楽曲生成サービスを提供するプラットフォームは多数存在する。またメタが最近、音楽生成AI「AudioCraft」を発表するなど、テック大手による開発も進行中だ。
CGツールやクローン生成ツールも登場、クリエイターへのインパクト
YouTubeが発表した一連のジェネレーティブAIツールに加え、市場ではさまざまなクリエイター向けのAIツールが登場しており、映像制作プロセスは大きく変わりつつある。
映像編集では、文字起こし/字幕生成がほぼ自動化できるようになったほか、映像の部分切り取りなどの作業もAIによって簡素化されている。
また、かつては多大な労力を要してしたコンピュータグラフィックスの利用も、AIツールの登場によって大きく変化しつつある。
たとえば、Wonder Dynamicsが開発するWonder Studioは、AIを活用しオリジナル映像にコンピュータグラフィックスを挿入する作業を大幅に短縮している。オリジナル映像における人間の動きをモーションキャプチャし、それにCGキャラクターを配置することで、本来膨大な時間を要する作業を劇的に短縮しているのだ。
Wonder Dynamicsは、映画「レディ・プレイヤー・ワン」の主演、タイ・シェリダン氏が共同創業者であり、またスティーブン・スピルバーグ氏が同社アドバイザーであることなどから、映画やゲーム業界で注目される存在となっている。
ジェネレーティブAIによるクローン技術も進化しており、近い将来インフルエンサーが公式クローンをつくり、そのクローンによる映像コンテンツ配信を行うことも可能になると予想される。
たとえば、米マイアミ拠点のDelphiのプラットフォームと同社と提携するElevenLabsのテクノロジーを活用することで、自分の思考や声を持つクローンを生成することが可能だ。Delphiは実際に、ターゲット利用者の1つとしてクリエイターを挙げている。
Delphiプラットフォームでクローンを生成するには、まず生成したい人間の思考が分かるデータをアップロードする必要がある。データは、YouTubeの動画、テキスト、文章、ポッドキャストなど複数のフォーマットでアップロード可能だ。バックエンドでは、オープンソースの大規模言語モデルが動画やテキストデータから、ターゲットとなる人間の思考原則やパータンを分析し、デジタルクローンを生成する。このデジタルクローンは、テキストベースの会話できる。
これに音声のクローン化を専門とするElevenLabsのテクノロジーを加えることで、任意の個人と同じ思考と声を持つデジタルクローンが完成する。さらに、サードパーティの動画生成ツールを活用することで、思考と声だけでなく、外見までそっくりなデジタルクローンの完全体をつくりあげることも不可能でない。
声のクローン技術やディープフェイクツールは悪用されるケースが増えており、今後クローン技術の規制やルールに関する議論が活発化することが予想される。
文:細谷元(Livit)