後発ながら急速に人気集める画像生成モデル「Flux」、注目される理由とは？ | AMP[アンプ]

INDEX

Black Forest Labs（BFL）とは？

1年ほど前まで画像生成AI市場は、Stability AIとMidjourneyの2強が独占的地位を占めていた。しかし現在、後発組の追い上げにより、状況は大きく変わりつつある。

画像生成AI市場における新興企業として急速に存在感を高めているのが、ドイツ発のBlack Forest Labs（BFL）だ。同社は設立からわずか数カ月で3,100万ドルの資金調達を実現し、さらに現在1億ドルの追加調達を検討中と報じられている。

注目される最大の理由は、生成画像の品質だろう。これまでの画像生成AIモデルと比較して、本物と見分けがつかないほどの品質で画像を生成することができるのだ。

Black Forest LabsのAIモデルが生成した画像
https://blackforestlab s.ai/

この品質を実現した開発チームも注目理由の1つ。CEOのロビン・ロンバッハ氏をはじめ、アンドレアス・ブラットマン氏、パトリック・エッサー氏、ドミニク・ロレンツ氏らStability AIの主要開発メンバーが参画しており、画像生成AI分野で実績のある技術者がそろう。特にロンバッハ氏は画像拡散モデルの専門家として高い評価を得ており、この分野における第一人者として知られている。

初回の資金調達では、Andreessen Horowitz（a16z）がリードインベスターとして参画。General CatalystやStuttgart VC Mätch.vcも同ラウンドに参加した。さらに個人投資家としても、NVIDIAのティモ・アイラ氏、オキュラスの共同創業者ブレンダン・イリーブ氏、アップルのAIリサーチサイエンティストであるブラドレン・コルトゥン氏、Y Combinatorのギャリー・タン氏など、著名な投資家が名を連ねる。

現在進行中とされる新たな資金調達では、評価額が10億ドルに達する見込みとされる。これは前回の評価額1億5,000万ドルから大幅な増加だ。また、AI分野で積極的な投資を行うLightspeedの参画も取り沙汰されている。同社はこれまで、フランスのMistralや英国のStability AIなどに資金を投じてきた実績を持つ。

Black Forest Labsの主力プロダクトとなるのが、テキストから画像を生成するAIモデル「Flux」だ。同モデルは、イーロン・マスク氏が率いるX.aiのチャットボット「Grok」に採用されており、発表直後から大きな話題を呼んだ。このFluxは現在も進化を続けており、それに伴いBlack Forest Labsの認知度／注目度も上昇を続けている。

BFLの最新モデル「Flux 1.1 Pro」とは

Fluxの最新版となるのが、2024年10月にリリースされた「Flux 1.1 Pro」だ。

Fluxの持ち味である品質を維持しつつ、生成速度が大幅に改善された。従来モデルと比較して6倍の高速化を実現し、画質、プロンプト忠実度、多様性も向上した。また前モデルの「Flux 1.0 Pro」についても、生成速度を2倍に向上させるアップデートが施された。

Flux 1.1 Proによって生成された画像
https://blackforestlabs.ai/

Flux 1.1 Proの実力は、第三者評価プラットフォーム「Artificial Analysis」のスコアにもあらわれている。同モデルは「blueberry」というコードネームで事前テストを実施。2024年10月1日時点で、ELOスコア1153を記録し、競合モデルとなるMidjourney 6.1（1100）やIdeogram v2（1108）を上回る最高スコアを獲得した。

主要な画像生成AIモデルのELOスコア（2024年10月1日時点）
https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/

このELOスコアは、Artificial Analysisの共同創業者であるマイカ・ヒルスミス氏（CEO）とジョージ・キャメロン氏（プロダクトリード）が2024年夏に確立した指標。チェスプレイヤーのスキルレベルを計算するために開発されたELOレーティングシステムを採用しつつ、2つのAIモデルをランダムに選択し、同一のプロンプトで生成した画像を比較する形で評価を行う。投票者の多くがAI愛好家であり、一般ユーザーの好みとは異なる可能性があるものの、モデル間の相対的な実力を示す指標として注目を集めている。

Flux 1.1 Proは、Replicateやtogether.aiなどのパートナー企業を通じて利用可能となる。一部のサービスでは「Flux Fast」という名称でも提供される。また近日中には、最大2kの超高解像度画像出力にも対応する予定だという。

同時にBFLは、デベロッパー向けのAPIもベータ版として提供開始。このAPIを通じて、企業やデベロッパーは自社アプリケーションにFlux 1.1 Proの画像生成機能を組み込むことが可能となる。モデルの選択、解像度、コンテンツモデレーションなどの高度なカスタマイズにも対応しており、幅広いプロジェクトで活用することができる。

一般的に画像生成は、テキストに比べ計算処理量が多く、コストが高くなりがちだが、Flux 1.1 Proは1画像あたり4セントと競争力ある価格で提供される。前モデルのFlux 1.0 Proでは1画像あたり5セントだった。高品質出力に定評があるFluxモデルを比較的低コストで利用でき、デザイン、広告、エンターテインメントなど、高品質が求められる業界での活用が見込まれる。

なお、Flux 1.1 Proは、前モデルとは異なり、クローズドの商用モデルとして提供され、学習データセットの詳細は公開されない。この点は画像生成AI企業にとって重要な問題となる。実際、Stability AIやMidjourneyは、ウェブ上にある人間が作成した画像を許可／補償なしで大規模にスクレイピングしたとして、アーティストらから訴訟を起こされている状況だ。

加熱する画像生成AI開発競争、Stability AIが最新モデルをリリース、謎のモデルが首位に

画像生成AI市場の競争は熾烈化しており、それに伴うAIモデルの進化も顕著だ。たとえば、Stability AIが2024年10月に発表した「Stable Diffusion 3.5」。同社は2月にStable Diffusion 3を発表、6月にはStable Diffusion 3 Mediumを一般公開したが、同社の基準を満たさない部分があったという。Stable Diffusion 3.5では、その反省を活かした改善が図られている。

Stable Diffusion 3.5は、3つのモデルバリエーションで提供される。最高品質とプロンプト忠実度を実現する80億パラメータの「Large」、Largeを圧縮して高速化を図った「Large Turbo」、エッジコンピューティング向けに最適化された26億パラメータの「Medium」。これらは、Stability AI Community Licenseの下で提供され、非商用利用と年間売上100万ドル未満の企業による商用利用が無償で可能となる。

技術面での進化も顕著だ。Query-Key Normalizationをトランスフォーマーブロックに統合し、エンドユーザーによるファインチューニングと開発を容易にした。また、MMDiT-Xアーキテクチャを強化し、画質と複数解像度での生成能力向上を果たした。

Stability AIのCTOハンノ・バッセ氏はVentureBeatでの取材で、今回のアップデートについて、データセットの選定改善、キャプション付け、トレーニングプロトコルの革新を組み合わせることで、プロンプト忠実度の向上を実現したと説明。さらに今後、SDXL 1.0で導入されたControlNet技術の提供も予定しており、画像のアップスケールや特定の深度パターンに従った画像生成など、プロフェッショナル用途での活用を見込んでいる。

一方、市場では新たな局面を予感させる動きもある。謎の画像生成モデル「red_panda」が、Artificial Analysisのベンチマークテスト（2024年10月29日時点）でFlux 1.1 Proを40 ELOポイント上回り、首位に立ったのだ。画像生成の速度も、OpenAIのDALL-E 3と比較して100倍以上高速という実力を見せており、何らかのAI企業が発表に向けた地ならしを行っているとの観測も出ている。

Artificial Analysisの画像生成AIモデルリーダーボード（2024年10月29日）
https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

文：細谷元（Livit）

Black Forest Labs（BFL）とは？

BFLの最新モデル「Flux 1.1 Pro」とは

加熱する画像生成AI開発競争、Stability AIが最新モデルをリリース、謎のモデルが首位に

voteVote

Vote