大規模言語モデルが直面する幻覚症状

一般消費者の間で広く普及したジェネレーティブAIだが、企業における利用は限定的だ。その理由は、ジェネレーティブAIが有害な情報や誤った情報を提示したり、まったく空想の情報を提示する「幻覚症状(hallucination)」が依然として報告されているからだ。

これらの問題は、特定のツールに限定されるものではなく、ChatGPTやグーグルのBardなどを含むジェネレーティブAI全般に観察されるもの。

Fortuneは、グーグルのサンダー・ピチャイCEOがAIテクノロジーにおいて、この幻覚症状問題が依然発生しており、なぜそうなるのか分からないと述べたと報じている。このことから開発側でも要因の特定が難しく、頭を悩ませている問題であることが分かる。

これまで様々な幻覚事例が報告されているが、ChatGPTに関しては、以下のような事例が報告されている。

3月22日に発表されたBernard Marrの記事によると、ChatGPTに「レオナルド・ダ・ヴィンチはいつモナリザを描いたのか?」と尋ねると、「レオナルド・ダ・ヴィンチは1815年にモナリザを描いた」と回答。実際は、モナリザが描かれたのは1503〜1506年、または1517年まで制作が続いたといわれており、ChatGPTが間違った情報を示したことになる。

一方、3月23には、GPT3.5の改善版が導入されており、モナリザの件では幻覚症状が改善されたことが確認できる。新しいGPT3.5に、同じ質問を投げかけると、「モナ・リザは、レオナルド・ダ・ヴィンチがイタリアのフィレンツェで1503年頃に制作を始めた絵画です。彼は数年間にわたってこの絵画に取り組み、1519年に亡くなる直前まで作業を続けたと信じられています。したがって、一般的にはモナ・リザは1503年から1519年の間に制作されたとされています」との回答を得ることができる。

グーグルBardに関しても様々な幻覚症状が報告されているが、直近の事例としては、最近CBSで放送された「60 Minutes」という番組内での出来事が話題となっているようだ。

同番組内で、Bardに「ピーター・テミンが著した『The Inflation Wars: A Modern History』はどのような書籍なのか」という質問がなされたところ、「これはアメリカのインフレーションの歴史を論ずる本であり、その対策についても議論している」と回答したという。しかし、そのような著書は存在しなかったのだ。

ちなみに、ChatGPT(新GPT3.5)にも同様の質問を投げかけてみると、「『インフレーション・ウォーズ:現代史』という書籍は、ピーター・テミンによって執筆された、アメリカ合衆国における1960年代から現代までのインフレーションの歴史について探求した書籍です。テミンは、インフレーションが現代の最も重要な経済的・政治的問題の一つであると考え、年代別に形成されたインフレーションに影響を与えた政策や出来事について分析しています」と、Bardと同じく幻覚情報を示す結果となった。

NVIDIAによる幻覚症状に対するソリューション

そんな中、NVIDIAが同問題に対するソリューションを示し、注目されている。

NVIDIAは4月25日、ChatGPTに代表されるチャットAIが誤情報・偽情報・有害情報の提示や幻覚症状を防ぐソフトウェア「NeMo Guardrails」を発表した。

この新しいソフトウェアは、チャットAIに文字通り「ガードレール」を追加し、不適切な情報の提示を防ぐことが可能という。たとえば、特定のトピックに話を限定したり、有害な内容を回避することに加え、コンピュータ上で有害なコマンドを実行しないように強制することができる。

NVIDIA応用研究部門のジョナサン・コーエン氏は、特定のトピックに関するプロンプトが入力された場合、どのようなプロンプトであろうと、決められた返答のみを返すスクリプトを書くことが可能だと説明する。

コーエン氏はこの機能の活用例として、カスタマーサービスや社内向けチャットAIを挙げている。たとえば、カスタマーサービスを担うチャットAIは、プロンプト次第でトピックを脱線させることが可能で、カスタマーサービスAIとして適さない情報の提示や有害な返答をさせることができる。また、競合製品に関する質問に回答させることも可能だ。ガードレールを設置することで、トピックの脱線、有害な反応、競合製品への言及などを防げるようになる。社内向けのチャットAIでは、人事データや財務データ、他の社員に関する情報を引き出せないように設定することも可能という。

また同ソフトウェアは、別々の大規模言語モデルの返答を照らし合わせ、ファクトチェックを実行し、2つのモデルの返答が異なる場合、「分かりません」と返すこともできる。これにより、幻覚症状を抑えることが可能となる。

ジェイルブレイクへの対策

今回NVIDIAが発表したソリューションは、企業によるジェネレーティブAI活用を後押しする大きなきっかけになるかもしれない。

現在、大規模言語モデルをベースとするチャットAIの中で、最も利用者が多いとされるのがOpenAIが開発するChatGPTだろう。この人気を背景に、企業でもOpenAIのAPIを通じて、ChatGPTと同様のチャットAIの展開を検討するところも少なくないようだ。しかし、ChatGPTをベースとする場合、幻覚症状のほかに「ジェイルブレイク」のリスクが重大な懸念として残る。

ジェイルブレイクとは、大規模言語モデルに設けられた制限を特定のプロンプトにより解除する行為を指す。これにより、AIツールの利用ポリシーで制限されている情報をチャットAIに提示させることができるのだ。たとえば「爆弾の作り方」や道徳的に問題のあるものなど、通常利用では提示されない危険な情報を提示させることが可能となる。

特に、ChatGPTをジェイルブレイクするプロンプトは、英語圏の掲示板サイトredditで広くシェアされており、多くのユーザーがジェイルブレイクさせていると報じられているのだ。

ジェイルブレイクプロンプトのアップデートも頻繁になされており、広く知られるジェイルブレイクプロンプトの1つ「DAN(Do Anything Now)」は、現在DAN6.0までアップデートされている。

DANプロンプトのほかには、STAN(Say/Think Anthing)プロンプト、Dudeプロンプト、Mongo tomプロンプトなど、複数のジェイルブレイクプロンプトが存在する。

ChatGPT、犯罪への悪用も

このジェイルブレイクにより、ChatGPTなどの大規模言語モデルを犯罪やテロに悪用することもできる。実際、欧州刑事警察機構(Europol)は2023年2月末に発表した報告書の中で、すでにChatGPTが犯罪に悪用されている状況を明らかにしている

報告書では、ChatGPTは潜在的に有害なプロンプトに対して、応答を拒否する能力が向上しているものの、OpenAIのコンテンツフィルターシステムを回避する方法をユーザーが見つけ、それが悪用されていると指摘。上記で触れたジェイルブレイクによってChatGPTが悪用されていると報告しているのだ。

ChatGPTをジェイルブレイクすることで、パイプ爆弾やクラックコカインの作り方をChatGPTに教えるように依頼したユーザーもいるという。また悪意のあるユーザーは、犯罪を犯す方法を学ぶためにChatGPTに尋ねることが可能で、違法行為のステップバイステップのガイダンスを求めることもできる。

またEuropolは報告書で「悪意あるユーザーが犯罪分野について何も知らない場合でも、ChatGPTを悪用することで、犯罪のための調査プロセスを劇的に加速することができる。たとえば、違法侵入の方法やテロリズム、サイバー犯罪、児童性的虐待など、事前の知識がなくても、各犯罪分野について学ぶために利用される可能性がある」と警告している。

このほか、ChatGPTの文章生成能力を悪用した詐欺/フィッシングやテロ支援のためのプロパガンダ/ディスインフォメーションの作成、さらにはコーディング能力を悪用したマルウェア開発などサイバー犯罪のリスクが高まると注意喚起している。

Europolは、ChatGPTを含むAI技術が犯罪に利用されるリスクを踏まえて、企業が技術開発に取り組む際には、慎重かつ責任あるアプローチが求められるとしつつ、「法執行機関、企業、学術研究機関、社会コミュニティが共同して、この技術の進歩に対応するために取り組むことが重要である」と報告書の中で呼びかけている。また、技術的な対策だけでなく、社会的、政治的な対策を講じる必要にも言及している。

文:細谷元(Livit