ビル・ゲイツ氏も注目のInflection、GPT-4に匹敵する新モデル「Inflection-2.5」をリリース STEMで高い性能、計算量は40％に抑制

INDEX

ディープマインドの共同創業者であるムスタファ・スレイマン氏とリンクトインの共同創業者であるリード・ホフマン氏が設立したInflection AIが、新たな基盤モデル「Inflection-2.5」を発表した。

このモデルは、同社のチャットボット「Pi」に搭載され、OpenAIのGPT-4に匹敵する性能を発揮するとして注目を集めている。特にSTEM分野において大幅な性能向上を実現し、GPT-4の94％の性能をわずか40％の計算量で達成。また、GPT-4と同様にリアルタイムのウェブ検索機能を組み込むことで、最新の出来事に関する情報提供が可能となっている。

昨年13億ドルの資金調達に成功し、ビル・ゲイツ氏も注目するInflection AIは、パーソナルで口語的な「共感力のある、有用で安全なAI」の構築を目指す。以下では、Inflection-2.5の性能と特徴をみていきたい。

Inflection AIが注目される理由

Inflection AIは、2022年にディープマインドの共同創業者であるムスタファ・スレイマン氏とリンクトインの共同創業者であるリード・ホフマン氏によって設立されたスタートアップだ。2023年6月には13億ドルもの大型資金調達を実施し、ユニコーン企業の仲間入りを果たした。2023年11月時点における累計調達額は15億2,500万ドルに上る。

同社の目的は、「共感力のある、有用で安全なAI」を構築することにある。他社のモデルよりもパーソナルで口語的な会話を行うチャットボットPiの開発を通じ、この目的の実現を目指している。マイクロソフトの共同創業者であるビル・ゲイツ氏も数あるAIスタートアップの中でもInflection AIのアプローチに注目していることを明らかにしており、これも同社が注目される理由の1つになっている。

またInflection AIは他社に先駆け、NVIDIAのGPU「H100」を大量入手する動きを見せたことでも注目の的となった。H100は、大規模言語モデルの開発・運用に適した高性能GPUで、2023年はこのGPU不足問題がシリコンバレーの大きな問題になっていた。Inflection AIは、上記2023年6月に13億ドルを調達した段階で、2万2,000台のH100によって構成されたスーパーコンピュータを構築し、これにより同社の大規模言語モデルを開発する計画を明らかにしていたのだ。

2024年に入りテック大手が続々このH100の大量購入を目論んでいることが明るみに出ており、H100不足は当面続く見込みとなっている。メタは2024年末までに、35万台のH100で構成されるスーパーコンピュータを構築する計画だ。

直近では、スレイマン氏を含むInfleciton AIの数名がマイクロソフトの新AI部門「Microsoft AI」に移籍するというニュースも飛び出しており、話題には事欠かない状態が続いている。

Inflection-2.5とはどのようなモデルなのか？

2024年3月7日にリリースされたInflection-2.5は、Inflectionが開発した大規模言語モデルの最新版だ。2023年11月に発表されたInflection-2から大幅に進化し、OpenAIのGPT-4に匹敵する性能を実現したとされる。

同モデルの大きな特徴は、GPT-4の94％の性能をわずか40％の計算量で達成したことにある。Inflectionによると、Inflection-2.5は、特にSTEMの分野で特に大きな進歩を遂げ、この分野でGPT-4のパフォーマンスに近づいたとのことだ。

具体的には、高校から専門家レベルのタスクを測定するMMLUベンチマークで、GPT-4の87.3％に対しInflection-2.5は85.5％を獲得。ハンガリー数学試験では、GPT-4の68点に対し63点、物理学GREテストでは97パーセンタイルのGPT-4に対し、85パーセンタイルを記録するなど、STEM分野の試験で高いパフォーマンスを示した。

コーディング能力に関しては、Inflection-1から大幅な改善が見られた。Pythonコードの生成能力を評価するHumanEval+では、Inflection-1（35.4％）から飛躍的な進歩を遂げ、73.8％を達成。79.3％のGPT-4に迫るところまできている。

また、Inflection-2.5はGPT-4と同様にリアルタイムのウェブ検索機能を組み込んでおり、最新のイベントに関する質の高い情報を提供できるようになった。ただし、ウェブ検索を用いたベンチマークテストは存在しないため、実際のユーザー体験は若干異なる可能性がある。

実際、最新ニュースを調べてみたところ、比較的新しい情報を提示できており、リアルタイム性は高い印象を受けた。しかし、ニュースのリンクを表示させ、そのリンクをたどってみたところ、すべてが「404エラー」となり、正確にリンクを表示する能力はまだ備わっていない状態であることが見受けられた。

https://theathletic.com/news/shohei-ohtanis-spokesperson-confirms-he-knew-of-gambling-involvement-of-his-interpreter/M2IKYabnUjYG/

InflectionはすでにInflection-2.5をチャットボット「Pi」に実装済みだ。同社によると、最新モデルによりユーザーの満足度やエンゲージメント、リテンション率が大幅に改善し、Piの成長が加速しているという。

Piの1日のアクティブユーザー数は100万人、月間アクティブユーザー数は600万人に上る。Piとの平均会話時間は33分で、ユーザーの10％は1時間以上会話している。ユーザーの60％は翌週もPiを使い続けており、大手競合他社を上回る月次定着率を誇っているそうだ。

現在の最高峰Claude3 Opusとの比較

Inflection-2.5は、GPT-4に匹敵する性能を発揮するが、果たして現在の最高峰モデルと言われるClaude 3 Opusとはどう比較されるのだろうか。ここではその一端を探ってみたい。

Claude 3は、OpenAIの最大の競合Anthropicが開発した最新の大規模言語モデル。特に最上位モデルであるOpusは、OpenAIやグーグルの主要モデルを凌駕する性能を発揮し、MMLUやMATH、GSM8K、GPQAなどの学術的ベンチマークでトップスコアを記録したことで話題となっている。

Inflection-2.5のベンチマークスコアを見る限り、Claude 3 Opusには及ばない印象だ。たとえばMMLUの5ショットセッティングにおいて、Claude 3 Opusは88.2％の精度を達成しているのに対し、Inflection-2.5は85.5％。また数学ベンチマークテストMATHにおいては、Inflection-2.5は61％のGPT-4に及ばず、43.1％にとどまるが、Claude 3は61％を記録している。HumanEvalにおいてもInflection-2.5の73.8％に対し、Claude 3は84.9％とリードしている。

ただし、計算効率の面ではInflectionが優位に立つ可能性がある。前述の通り、Inflection-2.5はGPT-4の40％の計算量でほぼ同等の性能を発揮したとされる。一方、Claude 3 Opusの計算効率に関する情報は公開されていない。

また現時点でClaude 3はウェブ検索ができないため、リアルタイム性が求められる情報生成においては劣る可能性が高い。

とはいえ、長文読解能力については、Claude 3 Opusが頭一つ抜けている印象だ。筆者個人が試したところでも、Claude 3 Opusは数十ページに及ぶ論文を隅々まで理解し、質問の意図を的確に汲み取った上で、詳細かつ網羅的な比較を行う能力を有していることが確認できた。Inflection-2.5は、入力できるテキストが最大で4,000文字と少なく、数十ページに及ぶ論文情報を入力することはできない。

総じて、ベンチマークスコアの面ではClaude 3が、計算効率やウェブ検索の面ではInflection-2.5が優位に立っているといえる。ただ、もともと両モデルの狙いは異なる。Inflectionはパーソナルで親しみやすいアシスタントの開発を、Anthropicはあくまで企業向けのソリューションに注力している。

現在、生成AI市場は、GPT-4に匹敵、またはそれを超えるモデルが続々登場している状況。今後どのようなモデルが登場するのか、OpenAIはそれにどう応えるのか、各社の開発動向から目が離せない。

文：細谷元（Livit）

Inflection AIが注目される理由

Inflection-2.5とはどのようなモデルなのか？

現在の最高峰Claude3 Opusとの比較

voteVote

Vote