INDEX
AIのコーディング能力を測る主要ベンチマーク「WebDev Arena」とは?Claudeの独壇場
AIモデルのコーディング能力を測る指標はいくつか存在するが、特にウェブ開発に関しては、WebDev Arenaが主要ベンチマークとして存在感を示している。
従来のコーディングベンチマークであるHumanEvalは、単独の関数レベルの問題解決に焦点を当てていた。しかし実際の開発現場では、UI生成、パッケージ依存関係の処理、アプリケーション構造の構築など、より複雑なスキルが求められる。WebDev Arenaは、まさにこのギャップを埋めるために誕生した評価プラットフォームだ。
その仕組みは驚くほどシンプル。ユーザーが「シンプルなチェスゲームを作って」といったプロンプトを送信すると、2つのAIモデルが競合するウェブアプリを生成。ユーザーは両方のアプリを実際に操作し、より優れた方に投票する。この投票結果がBradley-Terry(BT)モデルという統計手法で処理され、チェスのEloレーティングに似た形でモデルの強さが数値化される仕組みとなっている。

https://blog.lmarena.ai/blog/2025/webdev-arena/?utm_source=chatgpt.com
WebDev Arenaの評価環境は高度に最適化されている。AmazonのFirecrackerマイクロVM技術を活用し、各アプリケーションは完全に隔離された環境で動作すると、150ミリ/秒という驚異的な起動時間を実現しながら、数千の並行アプリケーションを同時に実行できる基盤を構築した。
2024年12月の開始以来、すでに8万票以上の投票が集まり、実世界でのコーディング性能に基づくリアルタイムランキングを提供している。評価されるプロンプトは、ウェブサイトデザイン(15.3%)、ゲーム開発(12.1%)、クローン開発(11.6%)など11の大カテゴリーに分類される。興味深いことに、最も頻繁にリクエストされる上位5つのプロジェクトは、VS Code/Cursorのクローン(4,189回)、WhatsAppチャットアプリのクローン(3,385回)、チェスゲーム(3,154回)などで、開発者がAIに求める実用的なニーズが浮き彫りになった。

https://blog.lmarena.ai/blog/2025/webdev-arena/?utm_source=chatgpt.com
これまでのWebDev Arenaは、AnthropicのClaude 3.7 Sonnetが圧倒的な強さを誇っていた。76%という驚異的な平均勝率を記録し、1,362.94ポイントという高スコアで首位を独走。2位のClaude 3.5 Sonnet(1,245.85ポイント)、3位のDeepseek R1(1,204.70ポイント)を大きく引き離していた。
グーグルのGemini 2.5 Proの快挙
Claudeの独壇場だったWebDev Arenaで快挙を達成したのが、グーグルのGemini 2.5 Proだ。
グーグル・ディープマインドが2025年5月6日に発表したGemini 2.5 Pro「I/Oエディション」は、WebDev Arenaで1,499.95ポイント(5月初旬時点)を記録。これまで首位を維持していたClaude 3.7 Sonnetの1,377.10ポイントを大きく上回り、ついにトップの座を奪取した。前バージョンの03-25版が1,278.96ポイントで3位だったことを考えると、実に221ポイントという驚異的な性能向上を実現したことになる。
(※)2025年6月5日時点では、Anthropicが投入した最新モデルClaude 4 Opusが1,415ポイントで首位となったが、Gemini 2.5 Pro(2025年5月6日版)は1,409ポイントで肉薄する実力を示す。
この快挙について、ディープマインドのデミス・ハサビスCEOは「これまで構築した中で最高のコーディングモデル」とX(旧Twitter)で宣言。ChatGPTの登場以来、生成AI競争が本格化してから初めて、グーグルが主要コーディングベンチマークで他のすべてのモデルを上回ったことは、業界に大きな衝撃を与えた。
実際の開発現場からの評価も極めて高い。AIコーディングツールCursorのマイケル・トゥルエルCEOは、内部テストでツール呼び出しの失敗が顕著に減少したと報告。同社はすでにGemini 2.5 Proを自社のコードエージェントに統合しており、より高度な開発ワークフローの中核コンポーネントとして活用しているという。
Replitのミケーレ・カタスタ社長も「機能と応答速度のバランスが最も優れたフロンティアモデル」と評価。高い応答性と信頼性が求められるタスクでの統合を検討していることを示唆した。Cognitionのサイラス・アルベルティ氏は、バックエンドルーティングシステムの複雑なリファクタリングを初めて成功させたモデルだと証言。シニア開発者に期待されるレベルの意思決定能力を発揮したと報告している。
特筆すべきは、単一のプロンプトから完全なインタラクティブ・ウェブアプリやシミュレーションを生成する能力だ。EverArtのピエトロ・スキラーノCEOは、最近ソーシャルメディアで話題となった「1頭のゴリラ対100人の人間」ミームのインタラクティブシミュレーションを、たった1つのプロンプトから生成できたと報告。また、別のユーザーは音響効果付きのテトリス風パズルゲームを1分未満で作成し、「カジュアルゲーム業界は死んだ!」とその衝撃を表現している。
このI/Oエディションは、Google AI StudioやVertex AIクラウドプラットフォーム、Geminiアプリで利用できる。価格は100万トークンあたり入力2.5ドル、出力15ドルだが、変動課金制を導入しており、20万トークンまでなら入力1.25ドル、出力10ドルで利用可能だ。一回の入力・出力数が20万トークンを超えない場合、Claude 3.7 Sonnetの3ドル/15ドルと比較して大幅に安価な設定となっている。
「NVIDIA税」回避で実現、グーグルの圧倒的価格競争力
Claudeを擁するAnthropic、o3やo4モデルで対抗するOpenAIに対し、グーグルはモデル性能の改善に加え、コスト面での強みを生かし、コーディング分野で躍進するための足場を固めている。
その核心にあるのが、独自開発のAIチップ「TPU」だ。2025年4月に発表された第7世代TPU「Ironwood」は、世界最速スーパーコンピューターの24倍という圧倒的な処理能力を誇る。1チップあたり192GBのHigh Bandwidth Memory(HBM)を搭載し、前世代Trilliumと比べて6倍のメモリ容量を実現。電力効率でも2倍の向上を達成した。
このTPU戦略が生み出すコスト優位性は圧倒的だ。OpenAIをはじめとする競合他社は、NVIDIAのGPUに依存せざるを得ない。一説では、NVIDIAのGPUの利益率は80%にも及ぶとされ、チップを自社開発できないAI企業のほとんどが「NVIDIA税」を支払っている状況にある。
一方、グーグルはTPUを自社開発することで、このNVIDIA税を回避。業界関係者の分析によると、グーグルのAIコンピューティングコストは、NVIDIAのGPUに依存する企業の約5分の1程度だという。
この差はAPI価格に直結している。標準的なコンテキスト長(20万トークン以下)で比較すると、OpenAIのo3モデルは、グーグルのGemini 2.5 Proと比べて入力トークンで8倍、出力トークンで4倍のコストがかかる計算になる。OpenAIの2024年における90億ドルの運用費用のうち、55〜60%がコンピューティングコストとされ、2025年にはその比率は80%に達すると予測されている。この格差は今後さらに拡大する見込みだ。
さらにグーグルは、エージェント開発基盤の整備にも力を入れる。2025年4月に発表された「Agent Development Kit(ADK)」により、企業は100行程度のコードでAIエージェントを構築可能になった。同時に投入された「Agent Engine」は、エージェントのコンテキスト管理からインフラ管理、スケーリング、セキュリティ、評価、モニタリングまでを一元的に提供する。
従来、エージェントの開発・運用にはLangSmithやLangFuseなどの外部ツールを組み合わせる複雑な統合作業が必要だった。Agent Engineにより、エージェントの開発・運用は劇的に簡素化することが期待されている。高精度モデル、圧倒的な低価格、充実したエージェント開発エコシステム。これらの武器を揃えたグーグルが、コーディング分野でどこまで勢力を拡大できるか、今後の展開が注目される。
文:細谷元(Livit)