生成AIモデルの正確性(幻覚症状の少なさ)の変遷

企業の生成AI活用を足踏みさせる要因の1つに生成AIの「幻覚症状(hallucination)」問題がある。ユーザーの質問に対し、事実ではないことをあたかも事実のように述べる生成AIの性質の1つで、オープンソース、クローズドソースを含めどの生成AIモデルにも内在する問題となっている。

たとえばChatGPTは2022年11月にリリースされたが、リリース直後のモデル(GPT-3.5)では、かなり多くの幻覚症状問題が報告されていた。またリリース直後のグーグルBardも同じく幻覚症状が多いといわれ、メディアで指摘されることも少なくなかった。

それでも2023年12月時点において、AI開発企業各社はこの幻覚症状を抑制するための取り組みを進めており、1年前と比較すると幻覚症状問題は大きく改善しつつある状況だ。

OpenAIの主力競合Anthropicは、2023年11月21日、最新モデル「Claude2.1」を発表したが、この最新モデルの正確性は前モデルであるClaude2.0に比べ2倍増加したと報告している。つまりAIモデルが「嘘をつく」確率を半減させたことになる。

Claudeを含め世の中に存在する生成AIモデルは、ユーザーの質問に対する回答を知らない場合でも、強制的に何らかの情報をアウトプットすることを優先しており、これが幻覚症状に繋がる要因の1つになっている。Claude2.1では、ユーザーの質問に対する回答をAIモデルが持ち合わせていない場合、「分かりません」と回答できるようになり、これが回答の正確性向上に寄与したようだ。

シリコンバレーAI企業が調査、幻覚症状指数でみる生成AIモデルの正確性

企業が生成AIを活用する際、正確性が高いAIモデルを選びたいはず。

最近では各AIモデルの回答の正確性(幻覚症状の少なさ)を分析した包括的なベンチマークレポートがいくつか発表されており、正確性とコストのバランスを見極める上で参考にすることが可能となっている。

その1つとしてまず挙げられるのがシリコンバレーのAI企業Galileoが2023年11月15日に発表した「LLM Hallucination Index(大規模言語モデル幻覚症状指数)」だ。

その名の通り、生成AIアプリケーションのベースとなる主要大規模言語モデルがどれほど正確な情報を生成するのか(幻覚症状にならないのか)を調べ、指数化したもの。OpenAIなどのクローズドソースモデルに加え、メタのLlama2などオープンソースモデルも分析対象としている。

このベンチマークレポートにおいては、3つの方法で各AIモデルの正確性が調査された。1つは、外部情報を与えずAIモデルの情報のみで回答を生成させた場合。もう1つはAIモデルに外部情報を与え回答を生成させた場合。そして長文回答を生成させた場合だ。

結論からいうと、これら3つの方法において、いずれも正確性でトップとなったのは、OpenAIのフラッグシップモデルである「GPT−4−0613」だった。これはGPT−4の中でも2023年6月13日にリリースされた比較的新しいモデルで、現時点においては市場で最も優れたモデルといわれている。このベンチマークにおいてそれを証明した格好となる。

注目したいのは、GPT-4が最も優れたモデルというのは周知の事実である一方、一部のオープンソースモデルがGPT-4に近いパフォーマンスを示したということだ。GPT−4は最も優れたモデルであるが、最もコストが高く、この高コストも生成AI活用を足踏みする要因の1つになっている。

オープンソースモデルが最大の正確性を発揮したのは長文生成タスクだ。

長文生成ではAIモデルの正確性を「Correctness Score(正確性スコア)」という指標で測っている。このスコアが最大となったのは、0.83を記録したGPT−4−0613モデル。これに0.82という僅差で2位につけたのがメタのオープンソースモデル「Llama2−70b−chat」だったのだ。

スコア順にトップ10を並べると、GPT−4−0613(スコア=0.83)、Llama2−70b−chat(0.82)、GPT−3.5−turbo-1106(0.82)、GPT−3.5−turbo-0613(0.81)、Llama2−13b−chat(0.79)、Zephyr−7b−beta(0.74)、GPT−3.5−instruct(0.74)、Llama2−7b−chat(0.72)、Falcon-40b-instruct(0.70)、Mistral−7b−instruct−v0.1(0.65)となる。

OpenAIのGPTモデルに対し、メタのLlama2、Hugging FaceのZephyr、アラブ首長国連邦ドバイ政府傘下のTechnology Innovation Institute(TII)が開発したFalconモデル、フランスのAIスタートアップMistral AIが開発したMistralなどのオープンソースモデルが健闘している状況が浮き彫りとなった。

このベンチマーク調査では、GPT-4を筆頭にOpenAIのGPTモデルが全体的に高いパフォーマンスを示した一方で、長文生成や外部情報を与えた場合には、GPTモデルとオープンソースモデルの差が縮まる傾向が観察された。そのような用途においては、オープンソースモデルも十分に選択肢となり得る可能性を示す調査結果といえる。

Vectaraも生成AIモデルの幻覚症状率を調査、最も正確なAIモデルを特定

Galileoのベンチマークレポートでは、主要なオープンソースモデルを漏れ無く分析対象としているが、クローズドソースモデルに関してはOpenAIのGPTモデルのみとなっている。市場にはOpenAIのGPTモデルのほか、冒頭でも触れたAnthropicのClaude、またCohereの各AIモデルやグーグルBardなど複数のモデルが存在しており、これらの正確性も分析する必要がある。

別のシリコンバレーAI企業Vectaraが2023年11月に発表した「Hallucination Leaderbord(幻覚症状リーダーボード)」がGalileoのベンチマークレポートを補完する役割を担う。

このリーダーボードでは「Accuracy(正確性)」と「Hallucination Rate(幻覚症状率)」で、各AIモデルの正確性を測定。2023年12月1日の執筆時点における同リーダーボードの最新アップデート日は2023年11月29日だ。

リーダーボードにおける正確性でトップに位置するのは、やはりGPT−4。正確性は97%(幻覚症状率3%)と非常に高いスコアを記録した。2023年11月にリリースされたばかりのGPT−4 Turboも正確性97%で同率1位だ。

これにGPT−3.5 Turboが96.5%、メタのLlama2 70bが94.9%、Llama2 7bが94.4%、Llama2 13bが94.1%、CohereのCohere Chatモデルが92.5%、Cohereモデルが91.5%、AnthropicのClaude2が91.5%、グーグルPalm2(beta)が91.4%、Mistral 7bが90.6%、グーグルPalm2 Chat(beta)が90%などと続く。

OpenAIのGPTモデルにメタのLlama2モデルが僅差で追う状況はGalileoの調査でも示されたところ。注目すべきは、Anthropic、Cohere、グーグルの各モデルの正確性に関するパフォーマンスとその位置づけが明らかになった点だろう。

Cohereは企業向けの生成AIに特化するスタートアップ。同社のCohere Chatモデルは正確性92.5%(幻覚症状率7.5%)を記録したが、幻覚症状率でみれば、GPT−3.5 Turboの2.1倍、GPT−4の2.5倍ということになり、今後の改善が求められるところ。

AnthropicのClaude2も正確性91.5%(幻覚症状率8.5%)で、競合となるGPT-4やGPT-3.5には及ばない状況だ。ただし冒頭でも触れたが、同社はこのほど最新モデルClaude2.1を発表したばかり。同社が主張するように、幻覚症状率が半分になったとすれば、このリーダーボードにおいては、幻覚症状率4.25%、正確性95.75%となり、Llama2 70bに取って代わり4位に順位を上げることになる。

グーグルPalm2はリリース当初から幻覚症状問題が指摘されていたが、このリーダーボードにおいても依然として苦戦している状況がうかがえる。

OpenAIがGPT−5の開発を開始したほか、マイクロソフトが独自の大規模言語モデルOrca2を発表するなど、今後も新たなAIモデルがベンチマークテストやリーダーボードに加わる見込みだ。

文:細谷元(Livit