Googleは、Google Labsを通じて、生成AIを活用した画像生成機能「Whisk」の試験運用を開始した。日本を含む100以上の国と地域で順次提供されるという。

Whiskは、詳細なテキストプロンプトを必要とせず、画像を入力することで新たな画像を生成できる AI ツール。ユーザーは画像を選択して入力するだけで、簡単に利用を開始できる。特定のモデル、シーン、スタイルを組み合わせてオリジナル画像を作成することが可能で、今回の日本での提供開始にあわせて、「カプセルトイ」や「お弁当」といった日本文化に着想を得た新しいテンプレートが追加された。また、バレンタインデーに向けた特別なテンプレートも用意されている。
Whiskのシステムでは、Googleの大規模言語モデル Geminiが画像の詳細なキャプションを自動生成し、それを最新の画像生成モデル「Imagen 3」に入力する仕組みとなっている。このプロセスにより、入力画像をそのまま再現するのではなく、モデル、シーン、スタイルを新しい形で組み合わせることが可能とのことだ。

ただし、Whiskは入力画像の一部の特徴のみを抽出するため、生成結果がユーザーの期待と異なる場合があるという。例えば、生成された人物の身長、体重、髪型、肌の色が元画像と異なる可能性がある。こうした場合に備え、基となるプロンプトを表示および編集できる機能が用意されている。なお、より高い精度で利用するために、英語でのプロンプト入力が推奨されている。