生成AIの需要が高まる一方で、その使用に伴うリスクに懸念を抱く企業も増加しており、安全で信頼できるAIの運用を模索する動きが活発化している。

生成AI分野で取り組みを活発に行っているマイクロソフトは、こうした課題に対応するため、クラウドサービス「Microsoft Azure(アジュール)」に、さまざまなツールとサービスからなる新しいAIサービスを発表した。

マイクロソフトは、OpenAIだけでなく、MistralやInflection AIなど、他のAIモデルも取り入れており、安全性と信頼性に重点を置いたAIの開発をアピールしている。今回のサービスは、現在プレビュー中であり、完全に利用できるようになるまでのスケジュールはまだ発表されていないものの、今後、あらゆるビジネス分野における活用が注目されている。

安全で信頼できるAI運用を模索する動きが活発化

生成AIの使用の広まりでリスクにも注目が集まる
UnsplashGrowtikaより

生成AIの利用に伴うリスクにはさまざまなものがある。

虚偽の情報を生成する「ハルシネーション」に加え、深刻なセキュリティ問題である「プロンプトインジェクション」も存在する。

ハルシネーションは、架空の製品や人物を生成したり、事実と異なる情報を拡散したりするなど、様々な問題を引き起こす可能性がある。一方、プロンプトインジェクションは、特殊なプロンプトを生成AIに入力し、それが実行されることで開発者にとって想定外の結果を引き起こすという攻撃である。

これには「ジェイルブレイク(脱獄)」と呼ばれる大規模言語モデルと直接対話する方法と、悪意のあるウェブページのようなサードパーティのデータソースを使用する間接的なやり方の2種類の方法が用いられる。結果として、機密情報の盗難やシステムの破壊などの被害が発生する可能性がある。

プロンプトインジェクションによるセキュリティリスクに対応

AI使用のセキュリティを高めるための様々なツールがリリースされた(マイクロソフト公式YouTubeチャンネルより)

今回マイクロソフトが発表したツールのひとつ、「Prompt Shields」は、この「プロンプトインジェクション」に対応したものだ。

「Prompt Shields」は、悪意のあるプロンプトや第三者データを自動的に分析・ブロックし、プロンプトインジェクションから守るツールで、高度な機械学習アルゴリズムと自然言語処理を使用して、プロンプトとサードパーティのデータに悪意がないかを自動的に分析し、必要に応じて攻撃をブロックする。

この機能は、マイクロソフトが提供する3つのAIサービス、 Azure OpenAI Service、Azure AI Content Safety、Azure AI Studioと統合する形で提供される。

文章要約やチャットボット活用におけるハルシネーション対策

AIによる文章要約やチャットボットにおいてハルシネーションは大きな問題だ
UnsplashGlenn Carstens-Petersより  

また、ハルシネーションや不正確な内容を検出する「Groundedness Detection」も導入された。

Azure AI StudioとAzure OpenAI Serviceで提供されるこの機能は、微調整されたカスタム言語モデルを使用して、AIによって生成されたテキスト出力における不正確な内容を検出する。

活用例として、AIを医療情報や学術論文、法的文書といった、正確性が重要視される大量の情報の要約に使用するケース、AIチャットボットによるカスタマーサポートに使用し、顧客により正確な回答を行うケースなどが示されている。

より安全なAIアプリケーションの開発を支援

3つ目の機能「Safety evaluations」は、AIアプリのリスクと安全性をストレステストする自動評価機能だ。

生成AIの開発者を支援するために用意されたこの機能は、前述のプロンプトインジェクションの一種である「プリズンブレイク」の試みや暴力的、性的、自傷行為やヘイトを含むコンテンツの生成に対するアプリケーションの反応を評価し、評価結果や対策について提案をする。

これと、4つ目の機能であるMicrosoft Researchによって開発された大規模言語モデル(LLM)のテンプレートとフレームワークである「Safety system messages」はいずれも、安全で責任あるコンテンツを生成するAIの効率的な開発をサポートするサービスだ。

AIアプリのリアルタイムモニタリングも可能に

最後の5つ目の機能「Risk and safety monitoring」は、AIアプリが本番稼働しているときに、リアルタイムモニタリングを提供する機能だ。

このモニタリング機能は、AIへの入力と出力が、プロンプトインジェクションに対するシールドのような安全機能を作動させているかどうかリアルタイムでチェックできる。

また、ブロックされたユーザー入力/モデル出力の量と比率、重大度/カテゴリー別の内訳といった詳細なレポートを作成することが可能だ。

この機能によって、生成AIアプリの開発者は、問題のある生成リクエストの傾向を時系列で把握し、コンテンツフィルターの設定やコントロール、さらに安全性を高めるための設計の調整に反映できる。

米国における新たな連邦AI保護措置の導入も影響か

米国では新たな連邦AI保護措置が導入された
UnsplashCaleb Perezより

このような生成AIのリスクに対する取り組みに本腰を入れる動きが強まっているのは、米国で、安全性とセキュリティ、プライバシー保護、イノベーションの強化を目指す連邦政府機関向けの人工知能の新たな保護措置を発表されたことも背景にあるのかもしれない。

今年年末までに連邦機関によって採択される予定となっているこの措置は、アルゴリズムによる差別を軽減するためのAIのテストと監視、また透明性確保のためのAIの公的目録を作成することを義務付けている。

今年は、欧州議会でもAI規制法が可決されており、世界的に、AIの使用に関連したリスクに対して、より慎重な対応が求められるようになっていると言えるだろう。

文:大津陽子
編集:岡徳之(Livit