ChatGPTのパフォーマンス評価は妥当か？AIのベンチマークめぐる議論 | AMP[アンプ]

INDEX

ChatGPTのパフォーマンス

GPT3.5に比べ様々な分野で精度が向上したといわれるGPT4。その根拠となっているのが、OpenAIがテクニカルレポートで公表したGPT4のパフォーマンステスト結果だ。

同レポートでは、GPT4がGPT3.5に比べ、法律、数学、化学、経済学、多言語能力、コーディング分野の精度が向上したことが報告されている。各分野の精度測定には、人間向けにデザインされた標準テストが用いられ、そのスコアによる精度比較が実施された。

たとえば、数学能力を測る指標の1つとして、米国の教育非営利団体College Boardが実施している高校〜大学レベルの微積分の習熟度を測る共通試験「AP Calculus BC」が用いられた。試験範囲は、極限、導関数、積分などの基本項目に加え、部分積部、テイラー級数、パラメトリック方程式、ベクトル微積分、極座標関数などの応用項目を含み、正答数に応じ1〜5段階のスコアが与えられるものだ。

この数学試験で、GPT3.5のスコアは1だったのに対し、GPT4は4を獲得、高校〜大学レベルの微積分に関しては、大幅に精度が向上したことが示された。

また法律分野では、米国の共通司法試験「Uniform Bar Exam」が用いられた。同試験の最大スコアは400点。多くの州では、260〜270点ほどが合格点とされる。この司法試験では、GPT3.5のスコアは213点と受験者の下位10％となり、合格点には達しなかった。一方GPT4は、298点と概ね上位10％に相当するスコアを獲得したことがテクニカルレポートで報告されているのだ。

大規模言語モデルを評価するベンチマークの有効性

このように短期間で驚異的な進化を見せる大規模言語モデルだが、今後さらに精度を高め、進化を続けるには、上記のようなベンチマークを用いた方法では不十分であるとする声が出始めている。

Science誌に掲載された論文「Rethink reporting of evalution results AI」（2023年4月13日）は、ChatGPTの評価で用いられたベンチマークではしばしばAIシステムの真の能力や限界を捉えることができず、安全性や信頼性について誤った結論や誤解を招く可能性があると主張、新しい評価方法を構築することが急務であることを強調している。

同論文が指摘する問題の1つが「集計数値（aggregate metrics）」をベンチマークとして使用している点だ。

冒頭で触れたOpenAIによるテクニカルレポートでは、ChatGPTの各モデルに対し、司法試験や数学など各分野の標準テストの問題を与え、その総合点数をベンチマークとして用いている。

一見問題がないように見えるが、AIを評価する上では、重要な問題を見落とすリスクがある。

同論文の共著者でケンブリッジ大学のAI研究者ライアン・バーネル氏はVenturebeatの取材で、集計数値をベンチマークとして用いることで、パフォーマンス結果を直感的な方法で読者や顧客に示すことができるが、簡略化された集計数値からはAIシステムがどこで間違いを起こしたのかを知ることができないと指摘している。

AIシステムはこれまでにも、集計数値で全体的に許容できるパフォーマンスを示した一方で、特定タスクにおいてパフォーマンスが下がる事例が多く報告されている。たとえば、商用の顔認識システムに関する研究では、全体的な精度が非常に高いモデルであっても、肌の色が濃い顔に対してパフォーマンスが低くなるなどの事例が報告されているのだ。

また、複雑なタスクにおいて優れたパフォーマンスを示す大規模言語モデルでも、同じ問題が異なる方法で提起された場合、誤った回答を生成するという研究結果も複数報告されている。

OpenAIによるテクニカルレポートでは、GPT4が司法試験に合格する水準に達しただけでなく、テスト受験者の上位10％のスコアを叩き出す能力を持っていることが示されたが、GPT4がどの質問やタスクで失敗したのかが明らかにされていない。

バーネル氏は、もしGPT4がベンチマークテストで正答できなかった問題が現実問題として頻繁に起こる場合、実際に活用するのは高リスクであると述べている。

トレーニングデータ汚染

司法試験や数学共通試験をベンチマークとして使用する場合、「トレーニングデータ汚染」が発生し、AIの評価が適切にできないという問題も指摘されている。

GPT4などの大規模言語モデルは、インターネットやコーパスなどから構築された大規模データセットでトレーニングされ、その後ベンチマークテストが実施される。ベンチマークテストでは、AIの推論能力をテストするため、テスト問題はトレーニングで使用されたデータセットに含まれないものを使用すべきだが、実際のところテスト問題が何らの形でトレーニングデータに含まれていないことを確認するのは困難といわれている。

このため、ベンチマークテストにおいてAIが高いパフォーマンスを示したとしても、それが記憶によるものなのか、推論によるものなのかが明確に分からないという。

推論ではなく、記憶によって高いパフォーマンスを示している場合、問題が異なる形で提起された場合、パフォーマンスが下がる可能性がある。実際、プリンストン大学のアーヴィンド・ナラヤナン教授が伝えた実験報告によると、GPT4は2021年以前に作成されたCodeforcesのプログラミング課題で非常に優れたパフォーマンスを発揮できるが、より最近の課題に対しては、パフォーマンスが劇的に低下したとされる。ChatGPTのトレーニングデータが2021年9月までであることが関係していると思われる。

また別の実験では、サンタフェ研究所のAI研究者メラニー・ミッチェル氏がMBA試験を使いChatGPTのパフォーマンスをテストしたところ、質問プロンプトの表現を少し変えただけで、パフォーマンスが大幅に低下したことが報告されている。ミッチェル氏はこのほかにも、司法試験や医学校試験でAIテストを実施、その結果人間向けに設計された試験はAIモデルの評価に適さないと結論付けている。

一方バーネル氏らは、集計数値という全体的なベンチマークよりも、より詳細な評価データを公表することが重要であると指摘。データやモデルのオープンソース化、モデルのトレーニング方法を説明するモデルカードの公開など、コミュニティによって推奨されるベストプラクティスをHugging Faceやメタなどの一部企業が実行していることは、良い兆候であると述べている。

文：細谷元（Livit）

ChatGPTのパフォーマンス

大規模言語モデルを評価するベンチマークの有効性

トレーニングデータ汚染

voteVote

Vote