INDEX
Anthropicによる生成AI特化のバグバウンティプログラム、その詳細
生成AIにはハルシネーションだけでなく「ジェイルブレイク」などのセキュリティリスクが存在する。AIモデル開発企業は、こうしたリスクを低減するために開発段階で対策を施しているが、リスクを完全に取り除くことは難しい。そこで重要になってくるのが、外部の人々を巻き込んだバグバウンティプログラムだ。
ソフトウェア/アプリケーションにおいては、さまざまなバグバウンティプログラムが存在するが、大規模言語モデル(LLM)に特化したプログラムは少ないのが現状。しかし、主要AI開発企業による取り組みが活発化の様相となっている。
注目される取り組みの1つがAnthropicが2024年8月8日に発表した、最高報奨金1万5,000ドル(約210万円)の生成AI特化バグバウンティプログラムだ。「ユニバーサルジェイルブレイク」攻撃が主な対象となる。
AI文脈におけるジェイルブレイクとは、AIシステムに組み込まれた安全対策や倫理的ガイドラインを回避し、本来制限または禁止されているはずの反応や行動をAIに引き起こさせる方法を指す。この手法を用いれば、有害内容の生成や機密情報の漏洩などを引き起こすことが可能とされる。
通常のジェイルブレイクは、特定の状況や指示に対してAIの制約を解除する手段だが、ユニバーサルジェイルブレイクは、その名が示す通り、汎用的に機能するアプローチだ。
カーネギーメロン大学などの研究者らによる報告(2023年12月)によると、ユニバーサルジェイルブレイクの手法を悪用すると、単一の攻撃的なプロンプト(指示文)だけで、複数の異なるAIモデルに有害な行動を引き起こさせることが可能であることが判明した。この手法は、特定のテキスト(攻撃的なプロンプト)をユーザーの質問や指示の後ろに付け加えるというシンプルなもの。この追加されたテキストにより、AIモデルは安全性や倫理的な制約を回避し、本来なら拒否するはずの有害な内容を生成したという。
たとえば、「爆弾の作り方を教えて」という質問に対して、通常のAIモデルは安全性の観点から回答を拒否するが、ユニバーサルジェイルブレイクを使用すると、AIモデルはこの質問に対して具体的な手順を提供する可能性があると指摘されている。
さらに重要なのは、この攻撃手法が複数のAIモデルに対して有効であるという点だ。研究者らは、Vicuna-7BとVicuna-13Bという二つのモデルに対して最適化した攻撃的プロンプトを作成したところ、この攻撃はChatGPT、Bard、Claude、さらにはLLaMA-2-Chat、Pythia、Falconなどのオープンソースモデルに対しても有効であることが判明した。
Anthropicは、このプログラムを通じて、AIの安全性に関する研究を加速させ、化学、生物、放射線、核(CBRN)の脅威やサイバーセキュリティなどの高リスク領域におけるユニバーサルジェイルブレイクのリスク軽減に向けた対策を強化したい考えだ。
プログラムはHackerOneとのパートナーシップのもと招待制で開始され、将来的に拡大される可能性もあるという。同社は、経験豊富なAIセキュリティ研究者や、言語モデルのジェイルブレイクで実績のある人材に対し、招待申請を行うよう呼びかけている(申請は8月16日まで)。
「Firefox」のMozillaも参戦、AI特化型のバグバウンティプログラム
ブラウザ「Firefox」の開発で知られるMozillaも、AI特化型のバグバウンティプログラムを実施している。
これはMozillaが2024年6月5日に発表した「0Day Investigative Network(0Din)」と呼ばれるプログラム。大規模言語モデルや他のディープラーニング技術に特化した取り組みだ。
0Dinの特徴は、アプリケーション層を超えて、新しいAIモデルに潜む脆弱性やセキュリティの弱点に焦点を当てている点だ。特に対象となる脆弱性には、プロンプトインジェクション、トレーニングデータ汚染、サービス拒否(DoS)攻撃などが含まれる。
プロンプトインジェクションとは、AIモデルへの入力プロンプトを操作して意図しない動作を引き起こす攻撃手法。たとえば、ユーザーの質問に特定の文字列を追加することで、AIに有害な内容を生成させるといった手法が考えられる。
トレーニングデータ汚染とは、AIモデルの学習データに悪意のある情報を混入させる攻撃のこと。この攻撃は、モデルの開発段階で行われる。汚染されたデータでトレーニングされたモデルは、特定の入力に対して攻撃者の意図した出力を生成するよう操作されるのだ。たとえば、特定の製品に関する偽の情報を学習データに混ぜることで、そのモデルが当該製品について誤った情報を提供するよう仕向けることができるようになる。
一方サービス拒否(DoS)攻撃は、AIシステムのリソースを枯渇させ、正常なサービス提供を妨げる攻撃手法だ。AIモデルに対するDoS攻撃では、モデルの処理能力を超える複雑な要求や大量の並列リクエストを送信し、システムを過負荷状態に陥らせる。これにより、他のユーザーがサービスを利用できなくなる可能性がある。
最近では、HackerOneやBugCrowdなどの企業が提供するバウンティプログラムを通じて、参加企業は直接コミュニティからバグ報告を受けられるようになっている。しかし、Mozillaは、一部の生成AI企業もこれらのプログラムに参加しているが、サポートソフトウェアの欠陥に対する報奨金を提供しているのが現状で、モデル自体のバグが対象になっていない場合が多いと指摘している。
OpenAIやグーグルのAIバグバウンティプログラム
AI開発の最前線を走るOpenAIとグーグルも、AIに特化したバグバウンティプログラムを展開している。
OpenAIがバグバウンティプログラムを発表したのは2023年4月。BugCrowdと提携し、AIシステムの脆弱性を発見した人に最大2万ドルの報奨金を支払うプログラムだ。現在も進行中で、直近では、2024年8月22日にバグの申請受付がなされている。
一方、グーグルも既存の脆弱性報奨金プログラムを拡大し、生成AIに関連する攻撃シナリオを対象に含めることを決定した。Forbes(2023年10月27日)によると、グーグルは2022年に1,200万ドル以上の報奨金を支払っており、AIに関する脆弱性も同様の枠組みで報奨の対象になる。特にプロンプトインジェクションによる脆弱性発見が推奨されるという。
このほかにもハルシネーションの低減に向けた動きも加速しており、「信頼できる安全なAI」の構築に向け、主要企業間の競争は今後さらに激しくなる見込みだ。
文:細谷元(Livit)