フランスのスタートアップ、創業7カ月で20億ドルの評価額

スタートアップがユニコーンになるまで、かつて創業から数年または10年以上要するケースが多かったが、スタートアップ界隈で動く資金量の増大により、今ではその期間は大幅に短縮している。

たとえば、2021年に創業されたばかりのAIスタートアップMosaicMLは2023年7月にDatabricksに買収されたが、このときの買収額は13億ドルに上ったと報じられている。創業から2年という短期間で10億ドルを超えたケースとなる。

昨今の生成AIトレンドの追い風もあり、こうしたケースは今後も増える公算が大きい。

フランス発のAIスタートアップMistral AIがその可能性を示している。

Mistral AIは、アルファベット傘下のAI企業ディープマインドやメタのAI研究部門にいた人物らによって2023年5月にフランス・パリで創業された非常に新しい企業だ。

創業7カ月目となる2023年12月、同社は2回目となる資金調達を実施し、4億1,500万ドルを獲得した。驚くべきは、このラウンドで同社は20億ドル近くで評価されていたということだ。2023年6月のシードラウンドでは1億1,300万ドルを調達。この調達額もシードラウンドとしては欧州における史上最大額になったとして注目を集めた。この時点での評価額は2億5,900万ドルだった。

1年足らずで評価額20億ドルに達したMistral AIとはどのような企業なのか。なぜこれほど注目されているのか気になるところ。

Mistral AIは、OpenAI、Anthropic、Cohereなどと同様に大規模言語モデルを開発する企業。大きな違いは、OpenAIやAnthropicがクローズドソースモデルを開発する一方、Mistral AIはオープンソースの大規模言語モデルを開発している。オープンソースとしてAIモデルを開発するのは、Llamaを開発するメタと同じアプローチだ。

オープンソースモデルとは、ソースコードが公開されており、無料で誰でも利用・閲覧・改良できるようなっているモデルのこと。開発者や研究者の利用を促進し、広範な採用と将来的なブランド・信頼性の構築につなげることができる。

実際、AI企業Perplexityは、Mistral AIの「Mistral-7b」モデルの改良版「pptx-7b」を開発し、自社サービスに組み込むといった取り組みを進めている。ちなみにPerplexityも創業1年数カ月で5億ドルの評価額がついた注目AI企業の1つだ。

Mistral AIの共同創業者の1人、現CEOを務めるアーサー・メンシュ氏は、アルファベット傘下のAI企業ディープマインドで大規模言語モデルの研究開発に携わった経験を持つ。

メンシュ氏は2015年に、工学分野で高い評価を受けるフランスのエコール・ポリテクニークで応用数学・コンピュータサイエンスの修士号、2018年にパリ・サクレイ大学で機械学習の博士号を取得。その後2年ほどポスドク研究員として勤務し、2020年にディープマインドにリサーチサイエンティストとして入社した。ディープマインドでは主に、ディープラーニング、大規模言語モデル、マルチモーダルトレーニングなどの研究プロジェクトに携わっていた。

一方、Mistral AIのチーフサイエンティスト、ギヨーム・ランプル氏とティモテ・ラクロワCTOはともにメタのAI研究部門で2015年前後からAI開発に携わってきた経歴を有している。

コスト問題を抱える生成AIモデル

クローズドソースの大規模言語モデルとしては、OpenAIのGPT-3.5やGPT-4が有名だ。

現在これに対抗するオープンソースの大規模言語モデルの代表格として認知されているのがメタのLlama2となる。

Mistral AIはこれら競合企業に対しどのようなアプローチで市場における存在感を高めようとしているのか。同社の最新AIモデルに見られるのは、モデルの効率化と他のモデルにはない多言語能力による差別化だ。

大規模言語モデルは、絶対的ではないものの、パラメータ数が増えるほどパフォーマンスが高まるという性質を持っている。このため、これまでの大規模言語モデル開発では、AIモデルの精度を高めるための主要な手段として、パラメータ数を増やすことに重きが置かれてきた。

その最たる例がOpenAIのGPT-4といえるだろう。OpenAIが提供しているチャットサービスChatGPTのデフォルトモデルは、パラメータ数1,750億のGPT−3.5。公式発表はないものの、AI開発コミュニティでは、GPT-4のパラメータ数は1兆5,000億〜1兆7,000億とGPT−3.5の10倍ほどであるとの憶測が流れているのだ。

実際GPT-4は他社・他モデルに比べ高いパフォーマンスを持つものの、非常に高コストであることから、同モデルを用いたAIアプリケーションの広域展開は難しいものとなっている。一般的にパラメータ数が増える(モデルサイズが大きくなる)と、処理に必要なコンピューティングリソースコストが増大する。GPT−4の運用では膨大なコンピューティングリソースが割かれているとみられ、それがエンドユーザーに転嫁されている。

メタが開発したオープンソースのLlama2は無料で利用できるためモデル利用のコストはかからないが、その最上位モデルであるLlama2−70Bは700億(70B)のパラメータを持っており、企業が自社展開するには相応のハードウェアやクラウドスペックが必要となる。

NVIDIAによると、Llama2−70Bのチャットモデルでは、320GBのGPUメモリが必要になるという。これはNVIDIAのGPU「A100 40GB」8台分に相当するメモリ数。少し前のGPUモデルであるA100は現在市場で1万〜1万5,000ドルほどで取引されている。したがってGPUだけでも、Llama2−70Bのチャットモデルを稼働するには、8万〜12万ドルのコストがかかることになる。

通常32ビットの浮動小数点数を使用するパラメータを4ビットなどより少ないビット数で表現するアプローチも存在する。これによりAIのモデルサイズを縮小し、メモリの使用量を減らすことも可能だ。4ビットに縮小する場合、モデルサイズは8分の1となり、必要となるGPUメモリを40GBに下げることができると報告されている。それでもA100 40GBを1台用意する必要があり、最低でも1万〜1万5000ドルのコストが伴う。

Mistral AIモデルの特徴とは?低コストかつ多言語能力に強み

これに対し、Mistral AIのフラッグシップモデル「Mistral 7B」はパラメータ数が70億という比較的小さなモデルで、より低コストでの運用を可能とする。Mistral 7Bのパフォーマンスは同じパラメータ数を持つメタのLlama2 7Bを圧倒し、最上位のLlama2 70Bに匹敵するベンチマークスコアを叩き出している。

さらにMistral AIは2023年12月、Mistral 7Bの後継モデルとして「Mixtral 8×7B」を発表。これは実質的なパラメータ数が120億となるモデルだが、ほとんどのベンチマークテストで700億パラメータを持つLlama2 70Bを上回る結果を示したのだ。

MistralとLlama2のベンチマーク比較(Mistralウェブサイトより)

このMixtral 8×7Bは、英語だけでなく欧州主要言語でもLlama2 70Bのパフォーマンスを上回っており、多言語展開できる可能性も示している。たとえば、Aiモデルの自然言語理解能力を評価するベンチマークテストの1つ「Arc-e benchmark」では、フランス語で58.2%を記録。Llama2 70Bのフランス語におけるスコアは49.9%、Mixtral 8×7Bが10ポイント近く上回ったことになる。このほかドイツ語、スペイン語、イタリア語でもLlama2 70Bのスコアを超える結果となった。

現在生成AI市場では、OpenAIを筆頭に、Anthropic、Cohereなどのクローズドソースモデル開発企業が強い存在感を示しているが、メタがLlama2をリリースしたことでオープンソースプレイヤーへの関心も高まっている。Mistral AIはその中でも際立つパフォーマンスを示しており、台風の目になる可能性も秘めている。同社の今後の動きに注目していきたい。

文:細谷元(Livit