GoogleのマルチモーダルAI「Gemini」がさらに進化　その詳細に迫る

2024.4.13

テキスト、音声、画像、動画など、2つ以上の異なる種類のデータをを理解し、組み合わせて操作できる人工知能（AI）である、Googleのマルチモーダル生成AI「Gemini（ジェミニ）」の最新モデル「Gemini 1.5」が、今年2月15日（米国時間）に発表された。効率性やパフォーマンス、長文推論能力において大幅な進歩を遂げた最先端のAIとして注目されている。

AIチャットボットアシスタント「Bard（現在はGeminiとサービス名称を統一）」の一般公開が昨年発表されてから、およそ一年。GoogleがどのようにしてAIの大幅な進化に取り組み、長文推論や大規模な情報処理の新たな可能性を切り開いたのか、その詳細に迫る。

Google発最新のマルチモーダル生成AI「Gemini 1.5」

Gemini 1.5はGoogle発の最新のAIだ（Google公式YouTubeチャンネルより）

Google DeepMindによって開発された大規模言語モデル（LLM）であるGeminiには、性能が高い順に、「Gemini Ultra」「Gemini Pro」「Gemini Nano」の3種類のモデルがある。今回発表された「Gemini 1.5」は、既存の最上位モデル「Gemini 1.0 Ultra」と同等の性能を、より少ない計算リソースで実現できる。

テキストデータを処理する際に使用される基本的な単位は「トークン」と呼ばれる。この「Gemini 1.5」の最大の特徴は、「Gemini 1.0 Pro」の32,000トークンや、OpenAI のGPT-4 Turboの128,000トークンより格段に多い、最大100万トークン（Gemini 1.5 Proモデル）の情報をインプットできる点だ。

導入段階では128,000トークンから開始されるが、今後、この最大値である100万トークンまで利用可能なプランが提供される計画となっている。

コンテキストウインドウが大きくなることで応答の正確性が向上

このようなトークン数の大幅な増加によって、「Gemini 1.5 Pro」は、「Gemini 1.0 Pro」の処理可能なデータ量の35倍である約700,000ワード、約30,000行、1時間のビデオ、11時間のオーディオのコードを取り込むことができる。

生成AIにおいて、出力を生成する前にデータ（テキストなど）を入力するコンテキストウインドウは、そこに入力可能なデータ量が大きいほど、文脈を正確に理解し、一貫性を保った精度の高い応答が可能になる。このコンテキストウィンドウが小さいモデルは、トピックから応答が脱線してしまうといった問題が発生しやすい。

そのため、MetaやAnthropic、マサチューセッツ工科大学、カーネギーメロン大学などがしのぎを削り、より大きなコンテキストウィンドウを求める研究を進めているが、この「Gemini 1.5 Pro」レベルのコンテキストウィンドウを備えたモデルを商用利用可能にしたのはGoogleが初めてだ。

デモでは文章、画像、動画を横断的に処理

Geminiの展望について語るGoogleのピチャイCEO　（Google公式YouTubeチャンネル）

先日Googleが披露した「Gemini 1.5 Pro」のデモでは、「Gemini 1.5 Pro」に、アポロ11号の月面着陸テレビ放送の約402ページにわたる資料をアップロードし、「この記録から、笑える場面を3つ引用して絵文字を加えて説明して」とプロンプトを入力、宇宙飛行士が発言したジョークを抽出するというデモが示された。

また、宇宙飛行士の月面への最初の一歩を描いた鉛筆スケッチを示し、「これは何の瞬間か？」と尋ねると、Geminiは対応するシーンを膨大な資料から正確に見つけだした。

さらに、44分間の無声映画「キートンの探偵学入門」から、説明とスケッチに基づいて、特定のシーンを検索するという指示に的確に対応するというデモも示されていた。

急速に進化し続ける生成AI関連技術

このような「Gemini」のパフォーマンスの背景には、生成AI関連技術の急速な進化がある。

昨年10月に、Googleデータサイエンティストであり、AIデータ解析プラットフォームの有名スタートアップであるDatabricksのCTOマテイ・ザハリア氏と、カリフォルニア大学バークレー校のピーター・アッビール教授が発表した研究論文では、OpenAIのGPT-4およびChatGPTに沿ったモデルからボトルネックを取り除くことで、当時の標準的な最大数である数十万語よりはるかに多い数百万語の処理が可能となることを実証した。

また「Gemini 1.5」シリーズの処理に採用されているMixture-of-Experts（MoE）と呼ばれるアーキテクチャは、従来のように単一のネットワークが全ての情報を処理するのではなく、特定のタスクや情報タイプに特化したネットワークが処理を行うことで、より効率よくタスクを実行できる。

「Gemini 1.5」のプレビュー提供は限定的に開始

Gemini 1.0はGoogle One AI プレミアムプランでGmailなど多様なアプリで利用可能（UnsplashのSolen Feyissaより）

「Gemini 1.0」は、すでにGoogle One AIプレミアムプランを通じて、Gmailなど多様なアプリで利用可能だが、今回発表されたばかりの「Gemini 1.5」は、現在のところ、かなり限定的なプレビューの利用ができるという段階だ。

一部ユーザーに向けてアクセス可能となっているGoogle CloudのAI StudioとVertex AIを通じてのGemini 1.5 Proモデルの限定プレビューは、一度に最大100,000単語までしか処理できず、前述のような大規模なデータ入力を行う「Gemini 1.5 Pro」は、プライベートプレビューの一環として、承認された開発者のみがAI Studioを使用して実験的に使用できる。

処理スピードはまだ向上に向けて実験段階

Geminiの最大の競合であるChatGPT（UnsplashのEmiliano Vittoriosiより）

膨大な情報の処理をデモでアピールしたGemini 1.5だが、不安要素がないわけではない。

デモで行われたタスク処理は正常に完了されたものの、それぞれの処理には約20秒から1分かかっており、ChatGPTと比較して、そのスピード感に疑問を投げかける意見もある。

Googleの研究者であるVinyals氏は、今後モデルが最適化されることでレイテンシーが改善される予定で、現在のGemini 1.5はまだ実験段階、研究段階にあると説明している。

文：大津陽子
編集：岡徳之（Livit）