Google、新世代AIモデル「Gemini 1.5」発表 長文理解能力が格段に向上 膨大な量の情報を効率的に分析し要約が可能に

Googleは、新世代AIモデル「Gemini 1.5」を発表した。

Google、新世代AIモデル「Gemini 1.5」発表 長文理解能力が格段に向上 膨大な量の情報を効率的に分析し要約が可能に

同モデルは、前作の「Gemini 1.0」からの性能を大幅に強化し、新しいMixture–of-Experts(MoE)アーキテクチャを用いて効率化されたトレーニングとサービスを実現。

Gemini 1.5 Proは、128,000トークンのコンテキストウィンドウを標準装備し、一部のデベロッパーと顧客企業には、最大100万トークンのコンテキストウィンドウを試用する限定プレビューが提供されるという。この技術革新は、AIを活用した新たな可能性を開くと期待されているとのことだ。

高効率なアーキテクチャ

「Gemini 1.5」は、最新のTransformerとMixture-of-Experts(MoE)アーキテクチャに基づいて開発されたという。

同モデルは、入力に基づき最適な「エキスパート」パスウェイを選択することで効率を大幅に向上させ、複雑なタスクの迅速な学習と品質の維持を実現。Googleはこれにより、AIのトレーニングと提供を以前よりも速く行えるようになり、さらなる最適化にも取り組んでいるとのことだ。

より拡張されたコンテキスト、より役立つ機能

AIモデルの「コンテキストウィンドウ」は、モデルが一度に処理できる情報の量を示し、これが大きいほど多くのデータを扱える。

Gemini 1.5 Proでは、このウィンドウが前モデルから大幅に拡張され、最大100万トークンの処理能力を搭載。これにより、大量のテキストやメディアデータなど膨大な量の情報を効率的に分析できるようになったとのことだ。

膨大な量の情報に関する複雑な推論

Gemini 1.5 Proは、膨大な量の情報を効率的に分析、分類し、要約する能力を持っている。例えば、アポロ11号の月面着陸についての402ページの記録を分析する際、文書内の会話や出来事、画像、その他の詳細を理解し、推論することができる。

Reasoning across a 402-page transcript | Gemini 1.5 Pro Demo

複数のモダリティの相互理解と推論の向上

1.5 Proは、動画などのさまざまなモダリティに対する高度な理解と推論のタスクを実行できるという。たとえば、44分間のバスター・キートンの無声映画では、モデルはさまざまなプロットや出来事を正確に分析し、映画内の見逃しがちな小さな詳細についても推論することができる。

Multimodal prompting with a 44-minute movie | Gemini 1.5 Pro Demo

パフォーマンスの向上

Gemini 1.5 Proは、テキスト、コード、画像、音声、動画評価の包括的なパネルのテストで前モデルを87%上回り、1.0 Ultraとほぼ同等の性能を示している。

同モデルは、大きなコンテキストウィンドウを持ち、最大100万トークンのデータを処理し、特定情報を高い確率で見つけ出す能力を有している。また、「インコンテキスト学習」で新しいスキルを追加の学習なしに習得でき、未知の情報からも効果的に学ぶことができる。

広範な倫理および安全性テスト

Googleは、「Gemini 1.5 Pro」の開発において、倫理と安全性に重点を置いているという。

同社は、AI原則と安全ポリシーに基づき、広範囲にわたる倫理テストと安全性テストを実施し、AIシステムの継続的な改善を行っているとのことだ。これには、新しい機能に対する追加テストの開発も含まれている。

Gemini モデルを構築して実験する

同社は、新世代のAIモデル「Gemini 1.5」を開発し、その試験運用機能の早期プレビュー版を一部の開発者と企業に提供。

同モデルは、大規模な情報処理能力を持ち、将来的にはより広範囲にリリースされる予定。また、Googleはこの新モデルのレイテンシー改善に向けて取り組んでおり、関心のある開発者や企業には参加を呼びかけているとのことだ。

モバイルバージョンを終了