OpenAI、Anthropicに並ぶ第3の生成AIスタートアップ
生成AI市場において大規模言語モデルを開発している企業は複数存在するが、そのうち3社は、資本やパートナーシップで圧倒的な競争優位を構築したとして注目されている。
ニューヨーク拠点の市場調査プラットフォームSacraの共同創業者、ジャンエリック・アスプンド氏による2023年10月末時点の分析によると、生成AI市場は現在、2010年代に起こったウーバーやLyftなどに端を発するオンデマンド市場トレンドに酷似しているという。このトレンドにおけるハイプ・サイクルの初期段階では、市場の勝者になると期待されたスタートアップに数十億ドルの資金が流れ込んだ。
アスプンド氏は、生成AI市場でもこのときと同様の動きが観察されると指摘。資金の流入先は3社。OpenAI、Anthropic、そしてCohereだ。この時点で、これら3社だけで145億ドルを調達しており、これが「資本の堀」となり、競争優位をにつながると同氏は述べている。
このように米国では、OpenAI、Anthropic、Cohereが生成AI市場における三強として特に注目される存在となっている。OpenAIは、ChatGPTの開発企業であり日本での知名度も非常に高い。AnthropicもOpenAIほどではないが、同社のチャットAI「Claude」が日本でも展開されており、認知度は低くないものと思われる。
一方、日本国内におけるCohereの存在感は現時点ではほとんどない。OpenAIやAnthropicのようなコンシューマ向けのチャットサービスは展開しておらず、日本向けのサービス展開がなされていないことなどが理由だ。
しかし米国では、OpenAI、Anthropicに並ぶ企業として認知されており、生成AI市場の現状を知る上でも、同社の動きは注目に値するといえるだろう。
Cohereは、グーグルのAI開発部門グーグル・ブレインに所属していたエイダン・ゴメス氏(現CEO)を含めた3名によって2019年にカナダ・トロントで設立されたスタートアップ。法人に特化した生成AIサービスを開発することで、OpenAIやAnthropicとの差別化を図っている。
法人特化のCohere、企業の生成AI導入を促進する施策
Cohereの差別化戦略は、同社が2023年12月にリリースした新プロダクト「build-your-own connectors」にも如実に反映されている。
企業が生成AI活用を足踏みする要因の1つとして、生成AIの幻覚症状(hallucinations)問題が挙げられる。ユーザーのプロンプト(質問)に対して、生成AIが事実に基づかない「嘘」の情報を生成してしまう問題だ。
ChatGPTなど生成AIチャットサービスで、ユーザーが入力したプロンプトに対してAIが生成する回答は、そのAIモデルが持つ情報/学習データに依存している。一般的にAIモデルの学習データには、最新情報は含まれておらず、新しいものでも1年ほどの時間差がある。最新情報に関する質問をしても、ChatGPTが的確な回答を生成できないのはそのためだ。
OpenAIは、ウェブ検索機能をChatGPTに追加することで情報のラグを解消。それでも、幻覚症状は起こり得る問題で、コンシューマやエンタープライズに限らず、生成AIを利用する上での注意点となっている。
この幻覚症状問題に対し有効な対策といわれているのが、Retrieval Augmented Generation(RAG)と呼ばれるアプローチだ。RAGアプローチは、大規模言語モデルの既存知識に依存するのではなく、追加情報をモデルに与え、その追加情報を考慮した形で、回答を生成させる手法。多くの研究結果では、このRAGアプローチが幻覚症状の起こる確率を下げることが報告されている。
Cohereのbuild-your-own connectorsは、企業が自社データベースやサードパーティアプリケーションに保存されているデータとCohereの大規模言語モデルCommandを接続し、RAGベースの生成AIアプリケーションの開発を可能にするプロダクト。
Commandは、さまざまなビジネスユースケースを想定したデータによってトレーニングされた同社のフラッグシップモデルで、サマリー生成やコピーライティング、データ抽出などを強みとしている。
今回build-your-own connectorsがリリースされたことで、企業は自社データやサードパーティアプリケーションに保存されているデータを活用し、Commandの能力を拡張することが可能になった。契約書や技術文書、議事録など社内データをCommandに与え、企業各社それぞれの文脈に沿った形で、回答生成が可能になるということだ。
たとえばユースケースの1つとして、カスタマーサポートの改善が挙げられる。過去のサポートケース、製品マニュアル、FAQなどの情報を検索・参照し、それをもとにした回答を生成することによって、顧客からの問い合わせに対する精度を大きく改善することが可能となる。また、企業の知識ベースを活用して、新入社員のトレーニング資料やプロジェクトマニュアルを生成し、社員の知識共有とスキルアップを促進することもできるだろう。
さらにはRAGを含めたこのアプローチをとることで、現在すでに生成AIが広く活用されているマーケティング分野においても、コンテンツや広告コピーの精度を一段高めることが可能だ。企業の過去キャンペーンデータや顧客インサイトを基に、特定ターゲットに向け、広告コピー、プレスリリース、SNS投稿などをパーソナライズすることができるためだ。
build-your-own connectorsは、グーグルドライブやSlackなどサードパーティアプリケーション内に保続されている企業データとCommandモデルを接続することもできるため、ユースケースの可能性は広範囲にわたる。
生成AIのブラックボックス問題への対応
Cohereのbuild-your-own connectorsは、大規模言語モデルの「ブラックボックス」問題を解消するものでもある。
ChatGPTなどのテキスト生成AIツールは、さまざまなアウトプットを生成することができるが、そのアウトプットの内容がどのような情報を参照して生成されたのか、「引用」がない場合がほとんど。これが「ブラックボックス」と呼ばれる所以だ。
エンタープライズの文脈では、引用がないというのは著作権問題を引き起こすリスクにつながるため、引用があるかないかは非常に重要なポイントとなる。
この点、build-your-own connectorsでは、さまざまなデータにアクセスする一方で、生成するアウトプットには、どのデータを参照したのか、引用を表示するようになっており、ユーザーは情報の出所を確認し、幻覚症状の有無をチェックしつつ、著作権リスクを低減することができるようになる。
現時点におけるCohereの生成AIモデルの日本語対応能力は、OpenAIのGPTモデルに比べると劣るところがあり、日本語前提のアプリケーションでの利用には注意が必要だ。しかし、OpenAI、Anthropicに並び、Cohereも豊富な資金力も持っている。近いうちに日本語を含めた多言語能力の大幅な改善が予想される。
文:細谷元(Livit)