AIの機械学習エンジニアリングスキルを測定するMLEベンチマークの登場

AIによる自動化は、さまざまな領域へと拡大の一途をたどっている。その波は、単純作業だけでなく、高度な専門性を要する分野にまで及び始めている。現在、注目を集めているのが機械学習エンジニアリングだ。

OpenAIが2024年10月、AIシステムによる機械学習エンジニアリングの能力を測定する新しいベンチマーク「MLE-bench」を発表。この研究により、AIが高度な専門領域でも一定の成果を上げられる可能性が明らかになった。

このベンチマークは、機械学習コンテストのプラットフォームとして知られるKaggleの実世界データサイエンスコンペティション75件を活用し、AIシステムの能力を包括的に評価するもの。Kaggleとは、企業や研究機関が抱える実際のデータ分析の課題を、世界中のデータサイエンティストが競って解決するプラットフォーム。たとえば、新型コロナウイルスに関するmRNAワクチンの分解予測や、古代巻物の解読など、現実世界における重要な課題が次々と投じられている。

MLE-benchは、単なる計算能力やパターン認識能力の評価にとどまらない。機械学習エンジニアリングの分野で必要とされる計画立案、トラブルシューティング、イノベーション能力といった、より高度な能力の評価に主眼を置いている。

具体的な評価方法として、AIエージェントには与えられた課題に対してモデルの設計、データの準備、実験の実行など、実際の機械学習エンジニアリングのワークフローを模したタスクが求められる。これらの作業は、人間のデータサイエンティストが日々行っているタスクと同様のものだ。

このベンチマークで特筆すべきは、AIの性能を人間の実績と直接比較できる点にある。各コンペティションにおいて、AIのパフォーマンスは実際のKaggleリーダーボードと照らし合わせて評価される。これにより、AIが人間のデータサイエンティストと比較してどの程度の能力を持っているのか、客観的な評価が可能となる。

MLE-benchの開発には、AIの能力進化を正確に把握するという重要な目的がある。また、AIの能力に関する誇張された主張に対して、現実的な評価基準を提供する役割も果たす。

MLEベンチマークの詳細:メソドロジー

MLE-benchは、厳密な基準に基づいて選ばれた75件のKaggleコンペティションで構成されている。採用された課題の30%は低複雑性、50%は中複雑性、20%は高複雑性に分類される。ここでいう複雑性(complexity)とは、経験豊富な機械学習エンジニアが解決に要する時間で定義される。低複雑性は2時間未満、中複雑性は2〜10時間、高複雑性は10時間以上を要するタスクを指す。

課題の種類も多岐にわたり、画像分類、テキスト分類、テーブルデータ分析、画像セグメンテーション、音声分類、大規模言語モデルのトレーニング、予測分析、物体検出など、現代の機械学習エンジニアリングで求められる幅広いスキルを網羅している。

各コンペティションにおいて、AIエージェントには24時間の制限時間が与えられる。この間、36個のCPU、440GBのRAM、4095GiBのSSD、そして1台のNVIDIA A10 GPUを使用して課題に取り組む。これは、実際のKaggleコンペティションで参加者に提供される計算リソースよりも潤沢な環境となっている。

評価基準として、コンペティションのリーダーボードにおける順位に応じて、ブロンズ、シルバー、ゴールドメダルが授与される。たとえば、参加チームが100〜249組の場合、上位40%がブロンズ、上位20%がシルバー、上位10チームがゴールドメダルを獲得できる仕組みだ。この基準は、実際のKaggleコンペティションと同様の評価方式となる。

ベンチマークでは、不正を防ぐための厳格なルールも設けられた。AIエージェントは、自身の知識を直接解答として提出することは禁止されており、必ず独立したモデルを訓練して予測を生成する必要がある。また、オンライン上の解答を参照することも禁止されている。これらのルール遵守を確認するため、GPT-4oを使用したログ分析ツールとコード盗用検出ツールが導入された。

さらに、データの汚染(コンタミネーション)を防ぐための対策も講じられている。AIモデルの事前学習時にKaggleコンペティションの公開解答が含まれている可能性があるためだ。対策として、コンペティションの説明を改変して認識できないようにする仕組みなどが導入された。

このように、MLE-benchは単なる性能評価だけでなく、AIの自律的な問題解決能力を公平かつ包括的に評価するための綿密な設計がなされているのが特徴といえる。

MLEベンチマークテスト、o1モデルが突出した能力を披露

MLE-benchの結果で最も注目すべきは、OpenAIのo1-previewモデルがKaggleコンペティション用に特別設計された実行システム「AIDE」と組み合わさることで、75件のコンペティションの16.9%でメダル級の成績を達成したことだ。これは、GPT-4o(8.7%)やClaude 3.5 Sonnet(7.6%)など、他の最新モデルと比較して約2倍の成功率となる。

具体的な成績の内訳を見ると、o1-previewは75件のコンペティションにおいて、ブロンズメダル3.4%、シルバーメダル4.1%、ゴールドメダル9.4%を獲得。特筆すべきは、ゴールドメダルの獲得数が平均して7個に達している点だ。これは、Kaggleのグランドマスター称号の獲得要件である5個のゴールドメダルを上回る成績である。

しかし、この結果には重要な注意点がある。まず、MLE-benchで使用されているデータセットは、オリジナルのKaggleコンペティションとは異なる点が挙げられる。また、評価されたAIモデルは、コンペティション当時には存在しなかった最新の技術や知識を活用できる立場にあるという利点も考慮する必要がある。

今回の実験では、現時点におけるAIモデルの限界も明らかになった。たとえば、AIエージェントは提出前に自分の解答が正しい形式かどうかをチェックできる仕組み(検証サーバー)を利用できるにもかかわらず、多くの場合で正しい形式の解答を作成できなかった。また、与えられた24時間という時間制限や、利用可能なコンピューターの性能(CPUやメモリの容量など)を考慮した効率的な作業計画を立てることを苦手としていることも判明した。

興味深いのは、AIエージェントに複数回の試行機会を与えた場合の性能向上だ。たとえば、o1-previewは1回の試行で16.9%だった成功率が、8回の試行では34.1%まで向上。同様に、GPT-4oも24時間の制限時間で8.7%だった成功率が、100時間に延長すると11.8%まで改善した。

これらの結果を踏まえ研究チームは、AIが既知のアプローチを適用する課題では良好な成績を収められる一方で、問題が発生した際のデバッグや、失敗からの復帰といった場面では依然として課題を抱えていると評価している。

このベンチマークはオープンソース化されており、今後AIエンジニアリング能力をさらに高めるためのAI開発が活発化するものと予想される。

文:細谷元(Livit