グーグルGemini、法人／デベロッパー向けに展開サードパーティの最新分析が示すGeminiの実力とは？

2024.2.25

細谷元

大規模言語モデルのランドスケープとグーグルGeminiの位置付け

2023年は、コンシューマ領域における生成AIの利用が爆発的に増えた年となった。同年11月時点の情報によると、OpenAIが展開するChatGPTのアクティブユーザー数は1週間あたり1億人に達したとされる。

これに続き2024年はエンタープライズ（法人）領域における利用が増える見込みだ。

ブルームバーグは2024年1月12日OpenAIのブラッド・ライトキャップCOOの話として、同社が2023年8月に法人向けにリリースした「ChatGPT for Enterprise」に関して、現在260社の顧客がおり、15万人のユニークユーザーが利用していると伝えた。OpenAIはブルームバーグの取材で、法人顧客の具体的な社名には言及していないが、自社ブログでCanva、PwC、Zapierなどの多くの有力企業が利用していることを明らかにしている。

ChatGPT for Enterpriseの利用料は公にされていないが、Redditでは1人あたり約60ドルではないかとの憶測が流れている。月間利用料を60ドルとすると、15万人のユーザー数で計算した場合、月間売上高は900万ドル、年間では1億800万ドルとなる。

OpenAIが法人顧客に関する情報を明らかにしたことは、同社の法人アプローチがさらに強まるサインとみられている。エンタープライズ領域では、OpenAIのほか、Claude2を展開するAnthropic、また法人に特化した大規模言語モデル開発企業Cohereの3社が強い存在感を示しており、これら3社の大規模言語モデルを中心に生成AIの利用が増える見込みだ。

今年はこの3強に対し、このほど最新モデル「Gemini」をリリースしたグーグルがどのようにキャッチアップするのかが焦点となる。OpenAIと同様、グーグルもコンシューマ向けのチャットサービス「Bard」を展開する一方、法人／デベロッパー向けのGemini APIを公開し、法人利用を促す動きを見せているからだ。

コンシューマ領域に比べ、エンタープライズ領域での生成AI導入が若干遅れていることを鑑みると、Geminiのパフォーマンスや価格、またセキュリティ面での優位性を示すことができれば、グーグルが先行プレイヤーに追いつくシナリオも十分に有り得るだろう。

カーネギーメロン大学研究者らによるGeminiのベンチマークテスト

グーグルの発表によると、Geminiはサイズごとに、「Gemini Nano-1」「Gemini Nano-2」「Gemini Pro」「Gemini Ultra」の4つの種類がある。同社は、最上位モデルとなるGemini Ultraが現時点の最高峰モデルといわれるOpenAIのGPT-4を超えたと主張している。

しかしGemini Ultraのリリースは2024年中とされており、現時点では一般利用できず、その実力を知ることはできない。一方、現在利用できるGemini Proを対象としたサードパーティによるベンチマークテストがいくつか実施されており、これらの結果を参考に、Geminiの実力を推し量ることは可能だ。

直近で注目されているのが米カーネギーメロン大学の研究者らによるベンチマークテストだ。このテストでは、グーグルのGemini Pro、OpenAIのGPT-3.5 Turbo、GPT-4 Turbo、MistralのMixtral、4つのモデルを対象に6分野における評価テストが実施され、各モデルが分野ごとにどのようなパフォーマンスを示すのかが分析された。テスト期間は2023年12月11〜22日。この時点で一般アクセスできる各社最新のAIモデルが評価対象となっている。

6分野における評価テストとは、AIモデルの知識を問う「Knowledge-based Q&A」、推論能力を測定する「Reasoning」、数学能力を測定する「Mathematics」、コード生成能力を測る「Code Generation」、翻訳能力を問う「Machine Translation」、ウェブ上でのタスク遂行能力を測定する「Web Agents」。各分野1〜4つのデータセットが与えられ、AIモデルのパフォーマンスが測定された。

ベンチマークテストの結果、カーネギーメロン大学の研究者らは、以下のように結論づけている。

「Gemini Proは、現時点におけるOpenAIのGPT-3.5 Turboに比べ、英語でのタスクにおいて、正確性が若干劣るものの、ほぼ同等の能力を有している。一方、翻訳タスクでは、GPT-3.5 Turboよりも優れた能力を持つことが確認された」。

カーネギーメロン大学の研究者らによるベンチマークテストの結果 https://arxiv.org/pdf/2312.11444.pdf

ベンチマークテストは6分野・12のデータセットで実施されたが、このうち11のテストでGPT-4 Turboが最高値を記録、最高峰モデルの地位を保った格好となる。ただしGPT‐4は高コストで知られており、2023年11月のGPT-4 Turboのリリースで利用料が若干下がったものの、依然Gemini Pro、GPT-3.5に比べ10倍以上の価格差がある。

グーグルのウェブサイトによると、Gemini ProのAPI利用料は、インプット1,000文字あたり（1K characters）0.00025ドル、アウトプット1,000文字あたり0.0005ドル。

OpenAI、Anthropic、Cohereなどでは、API利用料はトークン利用で算出されるため、直接的な比較はできないが、カーネギーメロン大学の研究者らは、英語の場合1トークンあたりの文字数は平均4文字になるとし、それをGeminiの利用料に換算、トークンあたりの価格が算出している。

これにより利用料を比較すると、100万トークンあたりでは、Gemini Proは入力1ドル、出力2ドル、GPT-3.5 Turboは入力1ドル、出力2ドル、GPT-4 Turboは入力10ドル、出力30ドル、Mixtralは入力0.6ドル、出力0.6ドルとなる。

Gemini Proの実力、特定言語の翻訳タスクではGPT-4を超えるケースも

現時点ではGPT-3.5と同等の実力とされるグーグルGemini Pro、差別化要素がなくコストが同じであれば、GPT-3.5からスイッチする必要はないが、翻訳においては優れたスコアを記録しており、翻訳タスクで重宝する可能性がある。

Gemini Proが特に高いスコアを記録したのは「南部レバントアラビア語」「ルーマニア語」「メソポタミアアラビア語」の3つの言語。いずれもGPT‐4のスコアを上回った。

南部レバントアラビア語は、主にレバント地域で話されるアラビア語の方言。ヨルダンやパレスチナ、イスラエル、レバノン、シリアの一部の地域が含まれる。ルーマニア語はルーマニア、モルドバで主に使用される言語、一方メソポタミアアラビア語は、イラクの一部、東シリア、南西イランなどメソポタミア地域で話されるアラビア語の方言だ。

それぞれ独特な文化的背景を持つ言語であり、機械翻訳システムにとっては難しい言語とされている。今回Gemini Proがこれらの言語を高い精度で翻訳したことで、その上位モデルとなるGemini Ultraへの期待も高まるところだ。

大規模言語モデルは日進月歩で進化を続けており、こうしたベンチマークテストも数カ月で時代遅れとなってしまう。Gemini Proが今後どのような進化を遂げるのか、またGemini Ultraはどれほどの実力を持って登場するのか、グーグルのAI取り組みからますます目が離せない。

文：細谷元（Livit）