アリババグループのデジタルテクノロジーとインテリジェンスのバックボーンであるアリババクラウドは、上海で開催中の「世界人工知能会議2023」で最新のAI画像生成モデル「通義万相(Tongyi Wanxiang)」を発表した。

アリババクラウド、AI画像生成モデル「通義万相」を発表 複雑なAIタスクの達成を支援するModelScopeGPTも発表

この先進の生成AIモデルは、現在中国の企業顧客向けにベータテストを提供しているという。

アリババクラウドはさらに、言語、視覚、音声領域にわたる複雑で専門的なAIタスクの達成を支援するために設計された汎用フレームワークである「ModelScopeGPT(モデルスコープGPT)」を発表。

ModelScopeは、アリババクラウドが昨年導入したオープンソースのモデル・アズ・ア・サービスプラットフォームであり、900以上のAIモデルを搭載しているとのことだ。

画像生成AIモデル「通義万相」

通義万相は、さまざまなタスクを処理することに優れている生成AIモデル。中国語や英語のテキストプロンプトに応答し、水彩画、油彩画、中国画、アニメーション、スケッチ、フラットイラスト、3D漫画など、多様なスタイルのディテールに富んだ画像を生成するという。

また、このモデルは、任意の画像を類似したスタイルの新しい画像に変換したり、スタイル転送によって画像をスタイリッシュに変化させたりすることが可能。これにより、元の画像の内容を保持しながら、別の画像の視覚スタイルを適用することができるとのことだ。

アリババクラウドの知識整理、視覚AI、自然言語処理(NLP)における先駆的なテクノロジーを搭載した同モデルは、多言語素材を活用してトレーニングを強化。意味理解能力が高く、文脈に即したより正確な画像生成を実現するとしている。

さらに、高解像度の拡散プロセスをS/N比(signal-to-noise ratio)に基づいて最適化することで、このモデルは構図の正確さと鮮明なディテールをバランスよく保ちながら、高コントラストで視覚的に美しい背景画像を生成する能力を強化しているという。

通義万相は、アリババクラウド独自の大型モデルであるComposerを使用して開発され、画像合成の品質と創造性を維持しながら、空間レイアウトやパレットなどの最終的な画像出力をより細かく制御することができるとのことだ。

Prompt – Picture a cityscape at twilight, a world merging modern architecture with the evocative aesthetics of anime.
Prompt – A six-year-old girl beautiful and exquisite Chinese-style Hanfu is displayed in front of a clothes rack.(後略)