2024.5.25

Google DeepMindがファクトチェックに強い「SAFE」を公開　”超人的”と自称するその詳細と市場の反応

INDEX

Google DeepMindが、AIによるファクトチェックシステムを開発し、公開した。「SAFE（Search-Augmented Factuality Evaluator）」と呼ばれるシステムは、人間のファクトチェックを上回る性能で「superhuman＝神業」と称する一方で、疑問を投げかける専門家もいる。自動ファクトチェックツールは現在、どのような進化を遂げているのか。

SAFEのファクトチェックの仕組み

ChatGPTなどの多言語モデル（LLM）の躍進が止まらないここ数年、世界がその進化を見守る中で依然として大きな問題として挙げられているのはその正確性だ。LLMから得られた結果やアウトプットを利用した問題の解決には、今なおマニュアルでのファクトチェックが必須で、これがLLMの価値を大きく損なっているともいえる。

DeepMindが開発したSAFEは、ファクトチェックの分野で人間の能力を上回るとされ、生成AIの弱点である「偽・誤情報」との戦いに大きな変革をもたらす可能性があるという。このSAFEは多面的なアプローチで優れたファクトチェックをするとされ、以下のように段階を踏むとされている。

詳細な分析：LLMが作成する長文式テキストを細分化し、個々の事実に分解。この細かい分解によって、徹底した事実検証が可能になる

厳格な検証：抽出された各事実をその後厳格な検証プロセスにかける。SAFEは検証にGoogle検索の結果を使用し、包括的な事実のマッチングをすることでこれまでになく正確な評価をもたらすことが可能

多重段階推論：単純なキーワードマッチではなく、検索クエリの生成や検索結果の後続分析などの、多重段階推論を組み込み、事実の正確さを決定するのがSAFEの検証システムである

つまり、まずSAFEは生成された長文式テキストを、個別の、自己完結型へと分割する。次に、曖昧な参照（代名詞など）をレスポンスのコンテキストに含まれる適切なものに置き換え、各ファクトが自己完結するように更新。再びその事実がコンテキスト内でプロンプトに関連しているかどうかをSAFEが測定し、スコア付けをする。

その後、依然として残る各事実をサポートの有無で複数段階の評価を付け、最後に、推論を使用して所定のステップを踏んだSAFEが事実の裏付けを確認し、「サポート有」「無関係」「サポート無」のファクト数をメトリクスとして出力する、という流れだ。

DeepMindが公開した検証結果

今回発表されたSAFEは1万6,000件のファクトを使った検証を実施。人間のファクトチェッカーの評価と驚異の72％もの一致を見せた。さらに、不一致サンプルでは76％でSAFEの判断が正しいという結果も出た。

また、SAFEの特徴はファクトチェックの正確さだけではない。人間のファクトチェッカーと比較して、SAFEの導入は20分の1で収まると主張。LLMが作成するコンテンツ量を考えると、財政面での利益は相当なものになる。また、急増する情報量に対応できる効率的なファクトチェックにはスケーラブルなソリューションが必要になるが、SAFEのキャパシティは莫大なデータを効率的に管理できるとしている。

さらに、DeepMindはGitHubのオープンソースでSAFEのコードやLongFactのデータセットを公開し、精査や構築を可能にしている。オープンにすることで、コミュニティの専門家たちがさらに深掘りできるため、改良が期待されるということだ。

なおLongFactとは、SAFEがファクトチェックに使用した4社（Gemini、GPT、Claude、PaLM-2）から上位13の言語モデルの新しいベンチマークのこと。このベンチマークによると、より規模の大きなLLMほど事実誤認が少ないことも判明している。

過去にも自動ファクトチェッカーを開発しているDeepMind

DeepMindは昨年末にも、AIチャットボットにファクトチェッカーを組み込み、史上初の科学的発見をしたと発表している。数学的、ないしコンピュータに関する問題に対して、不要なアウトプットをふるいにかけた有用なソリューションだけを出力できるFunSearchというものだ。

そもそもLLMは、天気予報やタンパク質構造解明といったAIが扱う正確かつ特定のデータと異なり、性能アップのために品質がバラバラな膨大なデータを扱うため、創造した回答を生み出すハルシネーションがつきものとなってしまっている。

そこで、解答の管理が比較的容易、つまり創造した解答の必要があまりない数学的、コンピュータ関連の問題に限定してファクトチェッカーを組み込んだAIチャットボットの開発に取り組み、FunSearchが開発された。

このFunSearchを使って開発者は、長年の数理科学の未解決問題であった「cap set問題」を解決し、これまでに考えられていたものよりも多い、過去20年間で最大のcap setを導き出した。

続いて、コンピューターサイエンスにとどまらず、実世界でコンテナの積み荷問題から、データセンターへのコンピュータのジョブアロケーションまでを低コストで実現できる実用性の高い問題「ビンパッキング問題」にも挑戦した。

ビンパッキング問題は現在、人間の経験則に基づいたヒューリスティックなアルゴリズムで対処されていることが多いが、各々のサイズやタイミング、容量に合わせて応用するのが困難であった。この問題でもFunSearchは、これまでのヒューリスティックな数値よりも優れた解答を導き出している（より多くのビンのパッキングに成功）。

こうした組み合わせの難題は、ニューラルネットワークと強化学習をもってして解決も可能だが、膨大なリソースを展開しなければならないケースがほとんど。一方で、FunSearchのアウトプットコードは簡単に検証して展開できるため、さまざまな実世界の産業システムに取り入れ、利益還元が可能だとしている。

SAFEの信頼性

では、今回開発されたSAFEはどの程度信頼できるのか。

前述通り人間の評価との一致は72％と同社は主張するが、裏を返せば28％は不一致。不一致サンプルも24％で間違いであるということだ。同社が主張する通り「Superhuman」、つまり超人であるかどうかは議論の余地があると言われている。

専門家からは、同社が比較した「人間」が何を意味するのかを疑問視する声も多く、「超人」とはただ単に、低賃金のクラウドワーカーを超えるという意味での「超」人であって、プロのファクトチェッカーとの比較ではないのであれば、検証は不十分だと指摘する声が上がっているのだ。

DeepMindは、結果説明に実際にどのような人間を使った検証を行ったのか、ファクトチェッカーの研修や給与、ファクトチェックの方法などを明らかにすべきだという声が上がっている。

一方で明らかなのは、SAFEが人間のファクトチェッカーよりも安価になるであろうという事実だ。LLMが生成する情報量が増え続けるこの先、こうした膨大な情報を経済的に効果的に検証していくことはビジネスにおいて死活問題となってくるのは確実だ。

ファクトチェッキングへの期待とポテンシャル

LLMのファクトチェッキングという極めて有益な機能を提供するという点で、LLMとAIの領域における奇跡的な進化ともいえるSAFE。

AIのハルシネーションや非論理的な事実上のコンテンツに、長年悩まされてきた開発者とAIの研究者たちは、SAFEの登場によってこの面倒な問題から解放されるようだ。

単なる検索からバーチャルアシスタンスに至るまで、巨大テック各社がアプリケーション用のLLM開発競争を激化させていく中で、ファクトチェッキングの自動化は非常に重要で、こうした開発の積み重ねが信頼と責任の構築を助長していくと期待されている。

また、AI駆動型のテクノロジーに依存する企業側も、今回の開発が高まりつつあるAIアプリケーションの信頼性と透明性の重要度をさらに強調し、市場により信頼性の高いAIソリューションが生まれることへの期待を高めている。

ただ一方で、今回の発表の検証方法には依然として異論が多く、前述の検証比較対象者の問題だけでなく、DeepMindがそもそも誤情報を含んでいると指摘された過去のあるGoogle検索の結果に依存し、それを正解としていることが大きな疑問だとする声も少なくない。

「自動ファクトチェッキング」の開発発表に、不透明なファクトを提示した形となったDeepMind。今後のさらなる検証が期待される中、疑問を呈する専門家たちのファクトチェッキングも、今後は自動化されるのか、どの学習を基に行われるのかという点も気になる。

文：伊勢本ゆかり
編集：岡徳之（Livit）

Google DeepMindがファクトチェックに強い「SAFE」を公開 ”超人的”と自称するその詳細と市場の反応