INDEX
推論モデルとエージェントシステム普及の影響
生成AI市場では、GPT-4のような従来型モデルから、複雑な推論を実行できる「推論モデル」、さらには複数の推論・非推論モデルを統合できるエージェントシステムが急速に普及している。
推論モデルの例としては、OpenAIのo3-mini、DeepSeekのR1などが挙げられる。また、エージェントシステムとしては、OpenAIのウェブ操作エージェント「Operator」、コーディングアシスタントのCursorなどが該当する。
従来型モデルと推論モデル/エージェントシステムの大きな違いは、アウトプット品質の大幅な向上にある。ユーザーの質問に対し、前者はストレートに回答を生成する一方、後者は何度も推敲を重ね、より深い回答を生成する。このため、後者の回答精度は前者を大きく上回るのだ。一方、推論モデル/エージェントシステムの利用増加は、処理するデータ量の大幅増加を意味し、必然的にその処理を担うAIインフラの負荷を高めることになる。
この点について、NVIDIAのジェンセン・フアンCEOが直近の同社カンファレンス「GTC」で興味深いデモを披露した。
このデモでは、従来型モデルとなるメタのLlamaモデルと、推論モデルとなるDeepSeekのR1に対し、結婚式での7人掛けテーブルの座席配置という課題が与えられた。新郎・新婦の両親を隣り合わせにしないなどの制約条件付きの課題だ。
メタのLlamaは、即座に439トークン(約329ワード)の回答を生成したものの、その内容は誤りを含んでいた。一方、DeepSeekのR1は制約条件を一つずつ検証しながら慎重に推論を重ね、すべての条件を満たす正確な座席配置を導き出すことに成功した。しかし、そのトークン数は、Llamaの20倍近い8,559トークンに及んだ。
こうした推論モデルがさまざまなエージェントシステムに組み込まれている事実も見逃せない。たとえば、史上最速で年間経常収益1億ドルを達成したと言われるコーディングアシスタントCursorでは、OpenAIのo3-mini、DeepSeekのR1などが利用可能になっている。エージェントシステムも複数のステップで問題解決を遂行するため、従来型モデルを使うのに比べ、1つの質問に対して処理されるトークン数は、何十倍にも膨れ上がる可能性がある。
フアンCEOは、推論モデルやエージェントシステムの応答時間を、既存モデルと同等に速さに維持するには10倍早く処理する必要があり、最終的に処理するデータ量は少なくとも100倍にはなるだろうと指摘している。
このように推論モデル/エージェントシステムの普及は、AIインフラへの需要を劇的に押し上げる要因となっているのだ。NVIDIAの出荷実績がその証左となる。同社の旧モデル「Hopper」GPUの最盛期における出荷数は、主要クラウド4社向けで130万台。これに対し最新の「Blackwell」チップは、初年度だけで360万台を出荷する見込みだという。
Together AI急成長の背景:推論モデルがもたらすインフラ需要増
推論モデルやエージェントシステムの利用増加は、市場のさまざまな側面に影響を及ぼし始めている。
米AIスタートアップTogether AIが実施した大型資金調達はそれを物語るものだ。
同社は2025年2月、General Catalystが主導する3億500万ドルのシリーズBラウンドでの資金調達に成功。2023年設立の同社は、翌年に仮想プライベートクラウドやオンプレミス環境でのAI展開を可能にする法人向けプラットフォームの提供を開始。2025年には推論クラスターやエージェント型AI機能の提供に踏み切っている。同社によると、AIデプロイメントプラットフォームには45万人以上のデベロッパーが登録しており、前年比で6倍増の成長率を記録したという。
成長の原動力となっているのが、DeepSeek R1関連のワークロード需要増加だ。同モデルは6,710億のパラメータを持ち、複数のサーバーに分散させる必要がある。さらに、処理時間が2〜3分に及ぶケースも多く、インフラへの負荷は想定以上に大きい。Together AIは、これらの需要に対応するため、128台から2,000台のチップを備えた「推論クラスター」と呼ばれる専用インフラを設置した。
Together AIのCEOビプル・プラカシュCEOは、推論モデルの活用範囲が急速に拡大していると指摘する。具体的には、コーディングエージェントによる複雑な問題の分解、幻覚の軽減に向けた出力の検証、非推論モデルの改善、強化学習による自己改善などが挙げられる。エージェントAIワークフローでは、1つのユーザーリクエストに対して数千のAPI呼び出しが必要となるケースもあり、これも計算需要を押し上げる要因となっているという。
この数千という数字は大げさに聞こえるかもしれないが、たとえば昨今注目される「Deep Research」機能を考えれば、妥当なものと言えるだろう。Deep Researchは、質問に対し、さまざまな情報ソースを検索し、それらの内容を分析しつつ、1つのレポートにまとめるエージェントシステム。もし50の情報ソースによるレポートが作成された場合、まず50の情報ソースにたどりつくまでに、おそらく数百の情報ソースが検索される可能性がある。その中から、最も関連性が高く、質の高いソースが選別されるため、数千のAPI呼び出しが必要となるのだ。さらに情報ソース1つあたりに対し数回の分析が行われることも考えられる。
メタとOpenAIが示すGPU需要の新たな局面
推論モデル/エージェントシステムによるGPU需要増加は、今後しばらく続く見込みだ。
まず注目されるのは、メタの動向だろう。
これまでの報道によると、現在同社が開発中の最新モデル「Llama 4」は推論モデルであるとされる。また、これをベースとしたウェブ操作AIエージェントやコーディングに特化した「AIエンジニア」システムの開発も視野に入れているという。ザッカーバーグCEOはこれらを活用し、10億人以上が利用する主要なアシスタントに成長させ、Llama 4を最先端モデルとして確立させる構想を描く。
同社は、この構想を実現するために、AIインフラ投資をさらに加速する。2024年末時点で60万台だったGPU数を、2025年末までに130万台まで倍増させる計画だ。また、これらのGPUを設置する大規模データセンターの建設も急ぐ。電力消費は2ギガワット(2,000メガワット)に達する見込みで、これは米国最速のスーパーコンピューターの約67倍の電力消費量に相当する。同社は2025年、データセンター建設に向けて最大650億ドルの設備投資を予定している。
一方、OpenAIも深刻なGPU不足に直面している。同社は最新モデル「GPT-4.5」を発表したものの、月額200ドルのProプラン加入者に提供を限定。同社のサム・アルトマンCEOは、「急速な成長によりGPUが不足している」と説明する。
GPU不足への対応として、OpenAIはブロードコムと共同でAIチップの自社開発を進めているが、実用化までには数年を要する見込みだ。当面は、NVIDIAなどの既存チップメーカーに依存せざるを得ない状況が続く。なお、NVIDIAの最新「Blackwell」GPUは、2025年10月まで完売状態にあるという。
推論モデル/エージェントシステムは、この先さらに利用が拡大する見込みだ。各社十分なリソースを確保できるのか、今後の動向が注視される。
文:細谷元(Livit)