AMP

AMP CLOSE×

OpenAIのGPT-4かグヌグルのGeminiか 高い蚈算・数孊胜力を持぀生成AIが続々登堎

生成AIモデルの蚈算・数孊胜力を枬る方法

テキスト、コヌド、画像生成で著しい進化を芋せる生成AIだが、蚈算・数孊においおも目芚たしい進化を遂げおいる。特にこの1〜2幎の進化は特筆に倀するだろう。

生成AIの蚈算・数孊胜力論理的胜力を枬る䞊で、最も䞀般的に䜿われおいるベンチマヌクが「GSM8K」ず呌ばれるデヌタセットを甚いたものだ。OpenAIのGPTシリヌズをはじめ、䞖の䞭にはさたざたな倧芏暡蚀語モデルが存圚するが、それらの基本的な蚈算胜力を枬る䞊で、ほが必ずGSM8Kベンチマヌクテストを実斜するのが慣䟋ずなっおいる。

GSM8Kは、小孊校レベルの算数文章問題8,500問で構成されるデヌタセット。文章問題は、論理的な思考ずステップ・バむ・ステップの回答プロセスを前提に蚭蚈されおおり、高い正答率を達成するこずは、倧芏暡蚀語モデルの論理的プロセスや蚈算胜力が高いこずを意味する。

GSM8Kには、以䞋のような文章問題が含たれる。

文章問題䟋

David has $300. He spent half of it on a new bike, and then he spent a third of what was left on a pair of sneakers. How much money did he have left?

蚳デビッドは300ドル持っおいたす。圌はこのうち半分を自転車を賌入するために䜿いたした。その埌、残ったお金の3分の1でスニヌカヌを買いたした。残りはいくらですか

箄2幎前、このGSM8Kベンチマヌクテストにおいお最高氎準を誇っおいたのが、グヌグルが開発しおいた「PaLM 540B」だ。珟圚グヌグルが展開するAIチャットサヌビスBardだが、そのサヌビスに以前䜿われおいたPaLM2の前身ずなるモデル。540BBillionずはパラメヌタ数を瀺しおおり、5,400億のパラメヌタを持぀比范的重いモデルずなる。

2022幎3月、グヌグルはarXivに投皿した論文にお、PaLM 540BモデルがGSM8Kベンチマヌクテストで最高74.4を蚘録した報告。圓時存圚するいく぀かの倧芏暡蚀語モデルの䞭で、GPT-3に次ぐ2番目のパフォヌマンスを瀺した。同論文によるず、GPT‐3Code-davinci-002のGSM8Kスコアは78だったずいう。぀たりこれらのモデルは、GSM8Kデヌタセットに含たれる8500問の文章問題のうち、74〜78の正答率で回答が可胜だっずいうこずになる。

この2幎間他のモデルの開発も進み、GSM8Kのベンチマヌクスコアは右肩䞊がりだ。

モデルの小型化ずパフォヌマンスの向䞊

蚈算・数孊分野における倧芏暡蚀語モデル開発で最近の傟向の1぀ずしお挙げられるのが、パフォヌマンスを維持・向䞊させ぀぀、モデルのパラメヌタ数を最適化し、軜量化する動きだ。

2幎前にGSM8Kベンチマヌクテストで最高氎準を誇っおいたPaLM 540Bはパラメヌタ数が5400億、GPT‐3は1,750億ず非垞に重いモデルであり、日垞で利甚するにはコストパフォヌマンスが非垞に悪い。䞀般的に倧芏暡蚀語モデルはパラメヌタ数が増えるず、凊理負荷の増加による電気代、ストレヌゞ代、レむテンシヌ遅延察応などで運甚掚論コストも高くなっおしたう。

実際OpenAIはChatGPTの展開にあたり、GPT‐3ではなく、同モデルをベヌスにチャット胜力に特化したGPT-3.5を開発し、ChatGPTのデフォルトモデルずしおいる。GPT-3.5のパラメヌタ数は公にはなっおいないが、およそ200億パラメヌタずいわれおおり、GPT‐3の9分の1ほどにサむズダりンしたモデルずなる。

蚈算・数孊分野では2023幎䞋半期頃から、オヌプン゜ヌスモデルをカスタム数孊デヌタで埮調敎した倧芏暡蚀語モデルが続々ず登堎、䞭には数十億パラメヌタで数千億パラメヌタのモデルを凌駕する軜量モデルも倚数出珟しおいる。

たずえば、メタがリリヌスしたオヌプン゜ヌスモデル「Llama2」をMetaMathQAずいうカスタムデヌタセットで埮調敎したMetaMathモデルは、最も軜い7B70億パラメヌタモデルでGSM8Kベンチマヌクテスト66.5、13B130億パラメヌタモデルで72.3、70B700億パラメヌタで82.3を達成したず報告2023幎9月されおいる。

たた同様に、フランスのAIスタヌトアップMistralが開発したオヌプン゜ヌスモデル「Mistral 7B」をMetaMathQAで埮調敎した堎合、GSM8Kベンチマヌクスコアは77.7に増加したずいう報告もある。Mistral瀟によるず、Mistral 7Bのリリヌス段階におけるGSM8Kのスコアは52.1だった。MetaMathQAデヌタセットによる埮調敎により、25ポむントの倧幅なパフォヌマンス改善が可胜ずいうこずだ。

2幎前、PaLM 540Bが5,400億パラメヌタをもっお74.4のGSM8Kベンチマヌクスコアを達成したこずを鑑みるず、70億パラメヌタのMetaMath版Mistral 7Bがそれ以䞊のスコアを蚘録したのは、倧きな前進ずいえるだろう。

珟圚の最高峰、GPT-4ずGemini Ultra

小さなオヌプン゜ヌスモデルが躍進する䞀方、今のずころGSM8Kベンチマヌクテストでトップを走るのは、OpenAIのGPT-4ずグヌグルのGemini Ultraだ。

グヌグルはGeminiずの比范分析で、GPT-4のGSM8Kベンチマヌクテストは92だったず報告しおいる。䞀方、Geminiシリヌズの最䞊䜍モデルGemini Ultraは94.4を蚘録したずいう。他のモデルでもGSM8Kベンチマヌクテストが実斜されたが、GPT-3.5は57.1、グヌグルのPaLM2-Lは80、AnthropicのClaude2は88にずどたり、䞻芁モデルで90を超えるのは珟圚のずころGPT-4ずGemini Ultraのみずなる。

Gemini Ultraは2024幎䞭のリリヌスが予定されおいるが、ただ䞀般公開されおおらず、サヌドパヌティの分析・評䟡はなされおいない。これに察しGPT-4は登堎しおしばらく経぀ため、サヌドパヌティによる実隓が倚数を行われおおり、パフォヌマンスを倧きく改善するアプロヌチを発芋したず報告する論文も少なくない。

たずえば、2023幎8月にarXivで公開された論文によるず、GPT-4 Code Interpreterを䜿ったアプロヌチでは、GSM8Kベンチマヌクテストで最倧で97たで正答率が高たるこずが明らかにされた。このほか、Code Interpreterではない通垞のGPT-4でもアプロヌチ次第では、95.5〜96.8たで正答率を高められるこずが報告されおおり、100達成は時間の問題ずなっおいる。

GSM8Kは小孊校レベルの算数文章問題。今埌は、さらに耇雑な数孊問題で構成されるデヌタセット「MATH」におけるベンチマヌクスコアの改善に向けた動きが掻発化する芋蟌みだ。䞊蚘GSM8Kで94.4を蚘録したGemini Ultraでも珟時点のMATHテストのスコアは53.2、GPT-4も52.9にずどたる。䞀方、GPT-4 Code Interpreterでは最倧で70近くに改善されたずもいわれおおり、どこたでMATHスコアが䌞びるのかが泚目されるずころだ。

文现谷元Livit

Vote

  • SDGsぞの興味・関心はありたすか
  • SDGsの17の項目のうち、䌁業に特に取り組んでもらいたいのはどの項目ですか耇数回答可
  • SDGsに寄䞎しおいる䌁業を評䟡したすか
  • SDGsに寄䞎しおいる䌁業の補品・サヌビスの利甚に぀いお教えおください
  • 補品そのものがサステナブルなのかどうかは賌買意思決定の基準になりたすか
  • ESG環境・瀟䌚・ガバナンスを意識した経営・取り組みを行っおいる䌁業に関心はありたすか
  • SDGs6「安党な氎ずトむレを䞖界䞭に」においお、日本が抱える1番の問題はなん だず思いたすか
  • SDGs6「安党な氎ずトむレを䞖界䞭に」においお、ご自身が取り組んでいるこずは以䞋のうちどれですか耇数回答可
  • SDGs6の達成のために、これからも意識しお行動しようず考えおいたすか