「ChatGPT」などの生成AI開発の勝者が優位を得られる分野は「検索」 | AMP[アンプ]

INDEX

生成AIの検索について、Harvard Business Reviewがまとめている。生成AIの開発競争で、勝者が大きな優位を得られる分野として顕著なのは検索であり、生成AIによってユーザーが検索に求めるものが劇的に変わる可能性があるという。

グーグル、バイドゥなどもChatGPTの競合プロダクトを準備

オンライン検索においてはグーグルが勝者として長年君臨してきたが、ここへきてマイクロソフト傘下のOpenAIに追い上げられている。マイクロソフトはChatGPT開発元のOpenAIに100億ドルを投資し、検索エンジンのBingを含む同社のさまざまなプロダクトにChatGPTを組み込むと発表した。

グーグルも独自のAIツール「Bard」をリリース予定であり、中国の巨大テック企業バイドゥ（百度）も、ChatGPTの競合プロダクトを準備している。生成AIのスタートアップにも、それぞれ巨額の資金が流れ込んでいるという。

生成AI全体には大きな現実的、技術的な課題がある

チャットGPTや生成AI技術をめぐっては、大きな現実的、技術的および法的な課題があると同誌は指摘する。グーグルのような堅牢で信頼性の高い検索エンジンを実現するためには、これらの課題を克服しなければならないという。

1つ目の問題として、ChatGPTは検索エンジンではないということがあげられる。Webをクロールする検索エンジンのように、リアルタイムで情報にアクセスする仕組みを持っていないのがその理由だ。ChatGPTは、2021年10月時点までの膨大なデータセットで訓練されており、ロシアのウクライナ侵攻、FTXの崩壊、エリザベス女王の死去、コロナウイルスのオミクロン株への変異などを知らないという。

しかし、大規模言語モデル（LLM）を継続的に再訓練するのは非常に難しく、ここに2つ目の問題があると同誌は述べる。それは、LLMの継続的な訓練は膨大な処理能力と、関連するリソースの経済的コストがかかることだ。モデルを訓練する頻度を減らし、進展の速いトピックに関する検索クエリへの適用を避けられるなら、それが解決策になるかもしれないという。

具体的に何を、誰から学習するのか

たとえ企業が技術面と経済面の課題を克服するとしても、提供する実際の情報に伴う問題が残るという。ChatGPTのようなツールは、具体的に何を、誰から学習するのかという点だ。

LLMは、開発者によって適切と判断され慎重に選ばれたデータセットで訓練される。しかしその程度では、オンラインにある極めて膨大なデータセットに含まれるコンテンツについて、事実上正しく、バイアスがないよう徹底することはできない。専門家は「インターネットに存在するテキストに基づいた大規模なデータセットは、覇権主義的な視点を過剰に反映し、社会的に弱い立場の人々に害を及ぼしかねないバイアスを内包している」と述べている。

従来型の検索エンジンにもバイアスの問題はあり、偏見や人種差別、不正確な内容やその他の不適切なコンテンツを含むWebサイトにユーザーを導く可能性がある。しかし、ユーザーはコンテンツと文脈情報を提示され、事実とフィクション、意見と客観的真実を区別するために自身の判断を適用し、どの情報を使いたいかを決めている。

この判断に基づく工程が、ChatGPTでは取り除かれる。AIは情報源を尋ねられても示さないため、バイアスがかかったAIが「客観的なツールであり正しいはずだ」とユーザーに認識されかねない。OpenAIは情報の出所を示すよう訓練されたAIツールのWebGPTを通じてこの課題への対処に取り組んでいるが、有効性はまだ定かではないという。

コンテンツ盗用の問題も

情報源をめぐる不透明性は、別の問題にもつながると同誌は指摘する。生成AIのアプリケーションは訓練データからコンテンツを盗用する可能性があることが、学術研究と事例証拠で示されている。「3つのC（著作権、報酬、クレジット）」についての訴訟がすでに起きており、法と倫理をめぐる新たな争いの波が到来しているという。

また、LLMが話をでっち上げる場合もある。グーグルのBardが公の場でジェームズ・ウェッブ宇宙望遠鏡について事実に反する情報を提供したのはその例である。こうした問題について、ChatGPTや後発のLLMは、情報探索やコンテンツ制作で課題を克服する必要があるという。

専門化された分野特化型の検索エンジンで、垂直方向の活用の可能性

LLMは、従来型の検索エンジンにおける特定の要素を強化することになりそうだが、現時点ではグーグル検索に勝てる様子はない。ただし、ほかの種類の検索に変化をもたらすという点では、革命的な役割を果たせる。

「検索3.0」の時代に起こる可能性が高いのは、垂直検索のために、意図的かつ透明な形でキュレーションされたデータで慎重に訓練されたLLMの台頭だという。専門化された、分野特化型の検索エンジンである。

企業と起業家は、LLMを垂直検索のアプリケーションに適用する有力な用途があるか否かを判断する際、以下の5つの問いを自らに投げかけてみることを同誌は提案している。

対象のタスクやプロセスは従来、綿密な調査・研究や、特定分野の深い専門知識を必要とするか
タスクの結果は、総合的な情報やインサイトや知識として提供され、ユーザーの行動や意思決定を後押しするか
AIを垂直検索領域の専門家にすべく訓練するための、過去の技術データや事実データは十分にあるか
LLMに最新の情報を提供させるために、新しい情報を用いて適切な頻度で訓練できるか
訓練データに含まれる見解、仮説、情報をAIが学習し、複製して永続させることは、合法かつ倫理的か

これらの問いに自信を持って「イエス」と応えられるなら、垂直型LLMの有力な用途が存在する可能性は高いとのこと。

ChatGPTの回答に対する世間の熱狂は時とともに薄れる

ChatGPTの背後にあるテクノロジーは素晴らしいが、近いうちに容易に模倣可能となりコモディティ化すると同誌は指摘する。ChatGPTの回答に対する世間の熱狂は時とともに薄れ、現実と限界が露呈し始めると予測した。

投資家とユーザーは、技術的、法的および倫理的課題への対処に注力している企業に注目すべきであり、これらの領域は、プロダクトの差別化が起こりAI競争の勝者が最終的に決まる最前線であると同誌は結論付けた。