INDEX
生成AIモデルの計算・数学能力を測る方法
テキスト、コード、画像生成で著しい進化を見せる生成AIだが、計算・数学においても目覚ましい進化を遂げている。特にこの1〜2年の進化は特筆に値するだろう。
生成AIの計算・数学能力(論理的能力)を測る上で、最も一般的に使われているベンチマークが「GSM8K」と呼ばれるデータセットを用いたものだ。OpenAIのGPTシリーズをはじめ、世の中にはさまざまな大規模言語モデルが存在するが、それらの基本的な計算能力を測る上で、ほぼ必ずGSM8Kベンチマークテストを実施するのが慣例となっている。
GSM8Kは、小学校レベルの算数文章問題8,500問で構成されるデータセット。文章問題は、論理的な思考とステップ・バイ・ステップの回答プロセスを前提に設計されており、高い正答率を達成することは、大規模言語モデルの論理的プロセスや計算能力が高いことを意味する。
GSM8Kには、以下のような文章問題が含まれる。
文章問題例:
David has $300. He spent half of it on a new bike, and then he spent a third of what was left on a pair of sneakers. How much money did he have left?
訳:デビッドは300ドル持っています。彼はこのうち半分を自転車を購入するために使いました。その後、残ったお金の3分の1でスニーカーを買いました。残りはいくらですか?
約2年前、このGSM8Kベンチマークテストにおいて最高水準を誇っていたのが、グーグルが開発していた「PaLM 540B」だ。現在グーグルが展開するAIチャットサービスBardだが、そのサービスに以前使われていたPaLM2の前身となるモデル。540B(Billion)とはパラメータ数を示しており、5,400億のパラメータを持つ比較的重いモデルとなる。
2022年3月、グーグルはarXivに投稿した論文にて、PaLM 540BモデルがGSM8Kベンチマークテストで最高74.4%を記録した報告。当時存在するいくつかの大規模言語モデルの中で、GPT-3に次ぐ2番目のパフォーマンスを示した。同論文によると、GPT‐3(Code-davinci-002)のGSM8Kスコアは78%だったという。つまりこれらのモデルは、GSM8Kデータセットに含まれる8500問の文章問題のうち、74〜78%の正答率で回答が可能だっということになる。
この2年間他のモデルの開発も進み、GSM8Kのベンチマークスコアは右肩上がりだ。
モデルの小型化とパフォーマンスの向上
計算・数学分野における大規模言語モデル開発で最近の傾向の1つとして挙げられるのが、パフォーマンスを維持・向上させつつ、モデルのパラメータ数を最適化し、軽量化する動きだ。
2年前にGSM8Kベンチマークテストで最高水準を誇っていたPaLM 540Bはパラメータ数が5400億、GPT‐3は1,750億と非常に重いモデルであり、日常で利用するにはコストパフォーマンスが非常に悪い。一般的に大規模言語モデルはパラメータ数が増えると、処理負荷の増加による電気代、ストレージ代、レイテンシー(遅延)対応などで運用(推論)コストも高くなってしまう。
実際OpenAIはChatGPTの展開にあたり、GPT‐3ではなく、同モデルをベースにチャット能力に特化したGPT-3.5を開発し、ChatGPTのデフォルトモデルとしている。GPT-3.5のパラメータ数は公にはなっていないが、およそ200億パラメータといわれており、GPT‐3の9分の1ほどにサイズダウンしたモデルとなる。
計算・数学分野では2023年下半期頃から、オープンソースモデルをカスタム数学データで微調整した大規模言語モデルが続々と登場、中には数十億パラメータで数千億パラメータのモデルを凌駕する軽量モデルも多数出現している。
たとえば、メタがリリースしたオープンソースモデル「Llama2」をMetaMathQAというカスタムデータセットで微調整したMetaMathモデルは、最も軽い7B(70億パラメータ)モデルでGSM8Kベンチマークテスト66.5%、13B(130億パラメータ)モデルで72.3%、70B(700億パラメータ)で82.3%を達成したと報告(2023年9月)されている。
また同様に、フランスのAIスタートアップMistralが開発したオープンソースモデル「Mistral 7B」をMetaMathQAで微調整した場合、GSM8Kベンチマークスコアは77.7%に増加したという報告もある。Mistral社によると、Mistral 7Bのリリース段階におけるGSM8Kのスコアは52.1%だった。MetaMathQAデータセットによる微調整により、25ポイントの大幅なパフォーマンス改善が可能ということだ。
2年前、PaLM 540Bが5,400億パラメータをもって74.4%のGSM8Kベンチマークスコアを達成したことを鑑みると、70億パラメータのMetaMath版Mistral 7Bがそれ以上のスコアを記録したのは、大きな前進といえるだろう。
現在の最高峰、GPT-4とGemini Ultra
小さなオープンソースモデルが躍進する一方、今のところGSM8Kベンチマークテストでトップを走るのは、OpenAIのGPT-4とグーグルのGemini Ultraだ。
グーグルはGeminiとの比較分析で、GPT-4のGSM8Kベンチマークテストは92%だったと報告している。一方、Geminiシリーズの最上位モデルGemini Ultraは94.4%を記録したという。他のモデルでもGSM8Kベンチマークテストが実施されたが、GPT-3.5は57.1%、グーグルのPaLM2-Lは80%、AnthropicのClaude2は88%にとどまり、主要モデルで90%を超えるのは現在のところGPT-4とGemini Ultraのみとなる。
Gemini Ultraは2024年中のリリースが予定されているが、まだ一般公開されておらず、サードパーティの分析・評価はなされていない。これに対しGPT-4は登場してしばらく経つため、サードパーティによる実験が多数を行われており、パフォーマンスを大きく改善するアプローチを発見したと報告する論文も少なくない。
たとえば、2023年8月にarXivで公開された論文によると、GPT-4 Code Interpreterを使ったアプローチでは、GSM8Kベンチマークテストで最大で97%まで正答率が高まることが明らかにされた。このほか、Code Interpreterではない通常のGPT-4でもアプローチ次第では、95.5〜96.8%まで正答率を高められることが報告されており、100%達成は時間の問題となっている。
GSM8Kは小学校レベルの算数文章問題。今後は、さらに複雑な数学問題で構成されるデータセット「MATH」におけるベンチマークスコアの改善に向けた動きが活発化する見込みだ。上記GSM8Kで94.4%を記録したGemini Ultraでも現時点のMATHテストのスコアは53.2%、GPT-4も52.9%にとどまる。一方、GPT-4 Code Interpreterでは最大で70%近くに改善されたともいわれており、どこまでMATHスコアが伸びるのかが注目されるところだ。
文:細谷元(Livit)