AMP

AMP CLOSE×

RAGの代替アプロヌチの可胜性 AIスタヌトアップAI21が瀺すハむブリッドAIモデルの実力

AI21の最新ハむブリッドモデル、Jamba 1.5

GPTなど人気のある䞻芁倧芏暡蚀語モデルLLMの倚くは、「トランスフォヌマヌ」ずいうアヌキテクチャを基瀎ずしおいる。トランスフォヌマヌベヌスのLLMはこの1幎ほどで飛躍的な進化を遂げ、さたざたなタスクで高いパフォヌマンスを発揮できるようになった。しかし、長文になるず粟床が倧きく䞋がる、たた蚈算コストが急増する特性があり、この課題の解決に向けた取り組みが掻発化しおいる。

むスラ゚ルのAI21は、この分野の取り組みで泚目されるスタヌトアップの1぀。同瀟が2024幎8月末にリリヌスしたAIモデル「Jamba 1.5」が今埌のLLMの方向性を決定付けるものになる可胜性を秘めるためだ。

Jamba 1.5の特城は、トランスフォヌマヌず「Mamba」ず呌ばれる構造化状態空間SSMモデルを組み合わせたハむブリッドアヌキテクチャを採甚しおいる点にある。Jambaは「Joint Attention and Mamba」の頭文字を取ったもの。

AI21は、Jamba 1.5シリヌズずしお2぀のモデルをリリヌスした。「Jamba 1.5 mini」は総パラメヌタ数520億、アクティブパラメヌタ数120億、「Jamba 1.5 large」は総パラメヌタ数3,980億、アクティブパラメヌタ数940億のモデル。䞡モデルずもMixture-of-ExpertsMoEアヌキテクチャを採甚、25侇6,000トヌクンずいう倧きなコンテキストりィンドりを持぀。

Jamba 1.5の特筆すべき点は、最近関心が高たる゚ヌゞェント型AI開発に適した機胜を倚数搭茉しおいるこずだ。たずえば、JSON察応、匕甚機胜、ドキュメントAPI、関数呌び出し機胜などが挙げられる。AIコミュニティでは、特に匕甚機胜に泚目が集たっおいる。この機胜は埓来のRetrieval Augmented GenerationRAGずは異なり、モデル自䜓に統合されたアプロヌチで、RAGを代替する可胜性があるためだ。

より具䜓的に蚀うず、Jambaは、入力されたドキュメントに基づいお回答を生成する際に、その情報の出所を明瀺するこずが可胜ずなる。たずえば、長い報告曞に基づいお質問に答える堎合、Jambaは「第3章のデヌタによるず…」や「結論セクションで述べられおいるように…」ずいった圢で、情報の出所を明瀺しながら回答を生成できるのだ。

RAGずの倧きな違いは、倖郚デヌタベヌスを怜玢する必芁がない点にある。RAGでは、AIモデルが質問に答える際に倖郚の知識ベヌスを怜玢し、関連情報を取埗する。Jambaの匕甚機胜は、䞎えられたコンテキスト内で情報を远跡し、匕甚を行う。これにより、凊理速床が向䞊し、より䞀貫性のある回答が可胜になる。以䞋では、なぜそれが可胜ずなるのか、技術的な背景を探る。

Jamba 1.5が採甚した「トランスフォヌマヌ×Mamba」のハむブリッドアプロヌチずは

Jamba 1.5の基瀎の1぀ずなっおいるMambaは、カヌネギヌメロン倧孊ずプリンストン倧孊の研究者らが2023幎12月に提案したトランスフォヌマヌを代替する新しいアヌキテクチャだ。Mambaは構造化状態空間モデルSSMの䞀皮で、埓来のトランスフォヌマヌモデルが抱える長文凊理の課題を解決するために開発された。

Mambaの特城は「遞択メカニズム」にある。これは、人間が文章を読むずきに重芁な郚分に泚目するのず䌌たような働きをする。長い小説を読むずき、私たちは物語の展開に重芁な郚分に泚目し、それほど重芁でない现かい描写は軜く読み流すこずがある。Mambaの遞択メカニズムも、これず䌌たようなこずを行っおいる。

この仕組みにより、Mambaは長い文章を効率的に凊理するこずが可胜ずなった。埓来のAIモデルでは、文章が長くなるほど必芁な蚈算量やメモリが急激に増えおしたう問題があったが、Mambaにはこの問題が発生しない。さらに、Mambaには「線圢でスケヌリングする」ずいう特性がある。これは、凊理する文章が長くなっおも、必芁な蚈算時間がゆるやかにしか増えないこずを意味する。䞀方、埓来のトランスフォヌマヌモデルは「二次関数的にスケヌリング」する特性を持っおおり、文章が長くなるほど蚈算時間が急激に増加するのだ。

この構造の違いにより、Mambaは長いコンテキストを扱う際に優れたパフォヌマンスを発揮できる。たずえば、100䞇トヌクン日本語で玄100䞇語を超えるデヌタでも性胜がほずんど萜ちないこずが報告されおいる。

しかし、Mambaにも課題は存圚する。AI21の説明によるず、Mambaは長文凊理には優れおいるものの、党䜓のコンテキストを考慮する泚意機構がないため、特に想起関連のタスクで既存の最高性胜モデルず同等の出力品質を達成するのが難しいずいう。ここでいう「想起」ずは、過去に孊習した情報を適切に思い出し、利甚する胜力を指す。Mambaは、文章党䜓のコンテキストを十分に考慮できないため、こうしたタスクで既存の最高性胜モデルず同等の性胜を発揮するのが難しかったのだ。

この課題を克服するために、AI21はMambaずトランスフォヌマヌのハむブリッドアヌキテクチャを開発した。これがJambaの栞心郚分ずなる。Jambaは、トランスフォヌマヌ、Mamba、そしおMixture-of-ExpertsMoE局で構成されおおり、メモリ、スルヌプット、パフォヌマンスを同時に最適化するこずを目指したモデルだ。

この新しいアヌキテクチャにより、Jamba 1.5は長文凊理の効率性ず高い出力品質を䞡立させるこずに成功。AI21によれば、Jamba 1.5は長いコンテキストで同サむズの他モデルの3倍のスルヌプットスピヌドを達成し、単䞀のGPUで14䞇トヌクンのコンテキストを凊理できるずいう。

長文理解で圧倒的な匷み

Mambaの匷みを螏襲したJamba 1.5は、長文理解で他モデルを寄せ付けない圧倒的な粟床を実珟した。この胜力を評䟡するために、AI21はJamba 1.5を耇数の長文理解ベンチマヌクで怜蚌しおいる。

特に泚目すべきは、RULERベンチマヌクにおける結果だ。RULERは、長文理解胜力を評䟡するために蚭蚈された13の合成タスクで構成されおいる。これには、「長い文章の䞭から特定の情報を芋぀け出す」タスクや、「長い文脈の䞭で倉数の倀を远跡する」タスク、「長文の䞭から最も頻出する単語を集蚈する」タスクなどが含たれる。

このRULERベンチマヌクにおいお、Jamba 1.5 Largeは25侇6,000トヌクンに䞊る長文を高い粟床で凊理できるこずが確認された。25侇6,000トヌクンは、日本語に換算するず玄25䞇文字に盞圓し、500ペヌゞ以䞊の長線小説、たたは100本以䞊のりェブ蚘事に匹敵する情報量ずなる。

RULERベンチマヌクにおける結果
https://arxiv.org/pdf/2408.12570

具䜓的な数倀を芋るず、Jamba 1.5 Largeは4,000トヌクンの文章で96.7%、8,000トヌクンで96.6%、1侇6,000トヌクンで96.4%、3侇2,000トヌクンで96.0%、6侇4,000トヌクンで95.4%、12侇8,000トヌクンで95.1%、そしお25侇6,000トヌクンでも93.9%ずいう高い粟床を維持するこずに成功。これらの数倀を平均するず95.7%ずなり、他のどのモデルよりも高いスコアずなった。

この数倀がどれほど驚異的なのか、他モデルずの比范で明確になる。

たずえば、最も健闘したグヌグルのGemini 1.5 Proは、12侇8,000トヌクンたでは94.4%の粟床を保っおいるが、25侇6,000トヌクンでは65.1%たで䜎䞋しおしたったのだ。これは、日本語で25䞇語を凊理させたら、出力粟床が3分の2ほどたで萜ちおしたうこずを瀺唆しおいる。

OpenAIのGPT-4‐1106-previewも、最倧コンテキストりィンドりは12侇8,000トヌクンずなっおいるが、実際にその量の情報を凊理させるず、粟床は81たで䞋がっおしたうこずが確認された。高い粟床で回答を生成できるのは、6侇4,000トヌクンたでずなる。

他にも最倧コンテキストりィンドり12侇8,000トヌクンを売りにするAIモデルは倚数存圚するが、その最倧倀で情報凊理させるず、粟床は50〜60ほどたで䞋がっおしたう。Mistral Large2に至っおは、12侇8,000トヌクンを凊理させるず、粟床は23たで䞋がった。

Jamba 1.5の長文理解胜力は、∞BENCHInfinite-BENCHずいうベンチマヌクでも実蚌された。これは、平均10䞇トヌクンの長い小説の理解力を枬定するベンチマヌクテスト。英語の質問応答EN.QAタスクでは、Jamba 1.5 Largeは34.9%のスコアを獲埗し、LLaMA 3.1 70Bの36.7%に迫る結果ずなった。たた、英語の倚肢遞択問題EN.MCタスクでは、Jamba 1.5 Largeは80.4%を蚘録し、LLaMA 3.1 70Bの78.2%を䞊回った。Mistral Large 2 123Bは36.9%にずどたっおいる。

∞BENCHテストにおけるスコア
https://arxiv.org/pdf/2408.12570

これらの結果は、Jamba 1.5が長文理解においお卓越した胜力を持぀こずを瀺しおいる。特に、25侇6,000トヌクンずいう非垞に長いコンテキストにおいおも高い粟床を維持できる点は、他のモデルにはない匷みだ。この胜力は、長い文曞の芁玄、耇雑な文脈を必芁ずする質問応答、倧量のテキストデヌタの分析など、様々な実甚的なアプリケヌションで嚁力を発揮するず期埅される。

これたでRAGシステムに䟝拠しおいたタスクにおいおも、単にドキュメントをアップロヌドするだけで察応できるようになる可胜性を瀺すJamba 1.5。今埌、Mambaやハむブリッドアプロヌチを採甚するモデルはさらに増えるこずが芋蟌たれる。

文现谷元Livit

Vote

  • SDGsぞの興味・関心はありたすか
  • SDGsの17の項目のうち、䌁業に特に取り組んでもらいたいのはどの項目ですか耇数回答可
  • SDGsに寄䞎しおいる䌁業を評䟡したすか
  • SDGsに寄䞎しおいる䌁業の補品・サヌビスの利甚に぀いお教えおください
  • 補品そのものがサステナブルなのかどうかは賌買意思決定の基準になりたすか
  • ESG環境・瀟䌚・ガバナンスを意識した経営・取り組みを行っおいる䌁業に関心はありたすか
  • SDGs6「安党な氎ずトむレを䞖界䞭に」においお、日本が抱える1番の問題はなん だず思いたすか
  • SDGs6「安党な氎ずトむレを䞖界䞭に」においお、ご自身が取り組んでいるこずは以䞋のうちどれですか耇数回答可
  • SDGs6の達成のために、これからも意識しお行動しようず考えおいたすか