INDEX
グーグルが毎年恒例の開発者会議で、高速で狭い範囲の高頻度タスクに特化したマルチモーダルLLMモデル「Gemini 1.5 Flash」を発表した。
GoogleのAI部門の最大の競合といえばチャットGPTを開発しているOpenAIだが、OpenAIが同社の最新AIモデル「GPT-4o」を発表した24時間後に、Googleの最新AI「Gemini 1.5 Flash」も公開され、AIモデルの進化競争は過熱している。
GoogleのAIモデルは多様なラインナップが揃えられており、開発者はユースケースに応じて異なるモデル/サイズを選択できるのが特徴だが、その最新AI「Gemini 1.5 Flash」の特徴と性能について、他のGeminiモデルとの比較をユースケース交えて紹介する。
速度と効率性重視の最新モデル「Gemini 1.5 Flash」
言語モデルが応答を生成する際に、どれだけの情報をどの程度の期間、記憶として保持できるかを示す「コンテキストウィンドウ」。
その最小の構成要素である単語、画像、動画の一部は「トークン」と呼ばれるが、Google AI Studio内のGemini APIを通じて公開プレビュー版が利用できるようになっているGoogleの最新AIモデル「Gemini 1.5 Flash」のコンテキストウィンドウは100万トークンと、「Gemini 1.0」の最大32,000トークンから大幅に増加している。
「速度」と「効率性」重視とされているこの新モデルでは、画像、音声、テキストなど多様なデータを統合的に処理する「マルチモーダル能力」で処理可能な高い性能をもっていながらも、これまでのモデルの10分の1のコストで利用できるコストパフォーマンスの高さが売りだ。
ビジネスシーンにおいては、会話を素早く要約したり、画像や動画にキャプションを付けたり、長い文書や大規模な図表からデータを抽出したりといったタスクへの活用が期待されている。
「Gemini 1.5 Pro」の強化も発表される
Googleは、「Gemini 1.5 Flash」の発表と同時に、Geminiの高性能モデル「Gemini 1.5 Pro」のコンテキストウィンドウが、これまでの100万トークンから、2倍の200万トークンに強化されることも明らかにした。
「Gemini 1.5 Pro」 は、同社の機械学習のフルマネージド型プラットフォーム「Vertex AI」を含む Google Cloudサービスに統合されており、企業がAI駆動型アプリケーションを構築する際に活用できる。
35の言語に対応しているこの新しいモデルでは、ローカル推論、計画、画像理解もこれまでより、さらに向上しているようだ。
素早さに長けた「Gemini 1.5 Flash」、複雑なタスク向けの「Gemini 1.5 Pro」

UnsplashのChris Riedより
プログラミングコード生成や物理、化学、生物学の専門家が作成した質問に回答するGPQAタスクにおいてほとんど同レベルの精度を誇り、どちらもテキスト、画像、音声、ビデオなど複数のソースからの情報を組み合わせて質問に回答できるマルチモーダルなGoogle発AIの最新モデル「Gemini 1.5 Flash」と「Gemini 1.5 Pro」だが、この2つのモデルには顕著な違いがある。
Googleの発表によると、「Gemini 1.5 Flash」は出力速度を重視するユーザー向けであるのに対し、「Gemini 1.5 Pro」は、より大規模で複雑なタスクに適しているとのことだ。
Google Labs担当副社長のJosh Woodward氏は、レイテンシ(リクエストが処理されるまでの時間的遅延を表す)の低さが重要となる、速度が要求されるタスクに対処したい場合は、「Gemini 1.5 Flash」を使用するべきだと語る。
一方、「Gemini 1.5 Pro」は、「より一般的または複雑で、多くの場合、複数ステップを含む推論タスク」向けだと説明した。
より長い、より膨大な情報の処理が可能な「Gemini 1.5 Pro」

UnsplashのScott Grahamより
また、すでに最大100万トークンの大規模なコンテキスト ウィンドウを備えており、さらに今回200万トークンへの拡張が発表された「Gemini 1.5 Pro」は、長い文章や書籍、コード、ビデオの分析能力において強みがある。
Googleによると、このモデルでは複数の大きな文書(合計1,500ページ)や100件の電子メール、1時間のビデオコンテンツや30,000行を超えるコードベースを取り扱うことが可能とのことだ。
実際のユースケースとしては、賃貸契約書のペットに関する部分の詳細を要約して把握したり、複数の長い研究論文の主要な議論を比較したりするなど、密度の高い文書に関する回答や洞察を素早く得る必要があるケースが示された。
Googleの親会社であるAlphabet IncのCEO、サンダー・ピチャイ氏は、「Gemini 1.5 Pro」について「これまでのどの基礎モデルよりも長いコンテキストウィンドウ」と記者会見で述べており、親がGeminiに子供の学校からの最近のメールをすべて要約するように依頼する例を挙げている。
モバイルに特化、チャット機能は持たない最小モデル「Gemini Nano」

UnsplashのJonas Leupeより
なお、Geminiシリーズには「Gemini Nano」と名付けられた、GoogleのAIラインナップの中で最小のモデルも存在する。
「Gemini Nano」は、他のモデルとはまったく方向性が異なる、モバイル向けの製品だ。GoogleのAI搭載スマートフォンであるPixel 8 Proに使用されており、AIメッセージ作成の「Magic Compose」といったデバイス上のAI機能を提供し、AIが音声の内容を要約するサマライズ機能やチャットの返答の内容をAIが提案するスマートリプライ機能を支えている。
チャットボット機能は備えていないため、チャットGPTやGeminiの他のモデルのようにAIと直接対話することはできないが、すべての処理がローカルで行われるため、機密データの保護に強みがある。
OpenAIと熾烈な競争、多様なGoogle発のAIモデル
GoogleはGemini最新モデルを発表したが、一方で、Googleの最大のライバルであるOpenAIも、GPT-4 Turboの2倍の速度で、コストは半分の新しいAIモデル「GPT-4o」と、ChatGPTのデスクトップ版、新しいユーザーインターフェースを発表した。このChatGPT最新モデルは、品質と速度が向上しているだけでなく、50種類の言語を処理できるようになっているとのことだ。
多様なAIモデルを次々と発表し、互いに市場における強力な競争相手としての地位を確立しているGoogleとOpenAI。この競争は、AI技術の進化を加速させ、ユーザーにとってはより高度なサービスの選択肢が広がる結果となっている。今後も両者の競争は激化し、AIの未来を形作る重要な要素となるだろう。
文:大津陽子
編集:岡徳之(Livit)