2024年は幻覚やバイアス問題の改善に焦点、生成AIアプリケーションの評価ツールが続々登場する理由

2024.2.24

大規模言語モデルを活用した生成AIアプリケーションへの期待と懸念

2024年は、大規模言語モデルを活用したユースケース別の生成AIアプリケーションが多数登場する見込みだ。しかし一方で、これらのアプリケーションを導入する、または自社で開発する企業が増えるか否かは、アプリケーションの安全性、正確性、中立性が確保されるかどうかに依拠することになるだろう。

法人文脈ではコンプライアンス／セキュリティ遵守が大前提となるため、社外向け・社内向けに関わらず、生成AIアプリケーションがハルシネーション（幻覚）を起こすことなく、事実を正確に生成すること求められるからだ。生成AIアプリケーションを開発する企業は、こうした導入基準を考慮した形で、アプリケーションを開発・提供しなければならない。

こうした需要を見込み、この1年ほどで、大規模言語モデルを活用した生成AIアプリケーションを開発する企業向けの評価ツールが続々登場しており、選択肢は拡大している。

代表的な生成AIアプリケーション評価ツールの1つとして挙げられるのが、Deepchecksが開発・提供する大規模言語モデル評価ツールだ。

Deepchecksは、イスラエル・テルアビブを拠点とする2019年設立のスタートアップ。シードラウンド資金調達で1,400万ドルを確保、競合企業と比べ比較的豊富な資金を調達しており、この分野における主力企業の1つとして注目されている。

Deepchecksのツールは、どのように生成AIアプリケーションを評価するのか。評価は大きく「モデル特性テスト」「バージョン比較」「リアルタイムモニタリング」「コンプライアンス／リスク管理」4つのステップによって構成されている。

モデル特性テストとは、手動評価とAIによる自動評価を組み合わせ、大規模言語モデルの特性、パフォーマンス、潜在的な落とし穴を評価するテスト。大規模言語モデルといっても、市場にはOpenAIのGPT-3.5、GPT-4に加え、AnthropicのCluade2、CohereのAIモデル、さらにはグーグルのGemini、メタのLlama2、MistralのAIモデルなど多種多様なモデルが存在し、各々異なる特徴を持っている。また、アプリケーション内における設定が変更されると、同じモデルでも挙動が変わることも多く、アプリケーションを安全に運用するには、アプリケーション環境における各モデルの特徴・挙動を把握する必要性が出てくる。

Deepchecksのツールにおけるモデル特性テストは、手動と自動により、アプリケーション環境において各大規模言語モデルがどのような特性を示すのかを分析・評価。またその過程で、期待する出力を生成するための入力値を検出し、入力と出力の最適解である「ゴールデンセット」の検出も可能という。

一方バージョン比較評価では、アプリケーションのバージョンによって大規模言語モデルの出力がどう変化するのかを分析し、改善されるのか、品質が低下するのかを確認することができる。

リアルタイムモニタリングは文字通り、データの逸脱状況や異常に関してリアルタイムのモニタリングを行い、通知を行う。コンプライアンス／リスク管理では、大規模言語モデルが生成する出力が幻覚なのか事実なのかを確認するほか、有害な出力をリアルタイムで確認することもでき、特定条件のもと、そのような有害コンテンツをブロックすることも可能だ。

ロンドン、カリフォルニア、ニューヨークの競合企業

2023年8月に350万ドルを調達したロンドン拠点のContext（2021年設立）も生成AIアプリケーション評価ツール分野における注目株だ。

創業者でCEOを務めるヘンリー・スコットーグリーン氏は、グーグルでプロダクトマネジャーとして、悪用監視プロダクトの開発に従事した経験を持つ。

ContextもDeepchecksと同様の大規模言語モデルベースの生成AIアプリケーションを評価するツールを開発・提供しているが、グリーン氏の経験を生かしたユーザーの悪用検知や高リスク・トピックの検知機能を差別化要素としている。

また「ユーザーの行動」に焦点を当てている点もDeepchecksと異なる要素だ。大規模言語モデルの特性評価の一環で、生成AIアプリケーションのユーザーが、どのようなトピックに関心を持っているのか、どのような回答に満足したのかなど、ユーザーと生成AIアプリケーションのインタラクションを可視化する機能を備えており、デベロッパーはその情報をもとにアプリケーションの改善を行うことが可能となる。

このほかこの分野では、ニューヨーク拠点のDatadogやカリフォルニア拠点のArizeなども同様の評価ツールを提供しており、需要の伸びに伴い顧客獲得競争も激しくなる見込みだ。

設立後わずか2カ月で800万ドルを調達したスタートアップ

この分野では今も新規参入が続いている。2023年9月末には、シリコンバレー発のBraintrust Dataが登場。設立からわずか2カ月後の12月にはシードラウンドで500万ドルを調達し、事業拡大を加速する構えだ。累計調達額は800万ドルに上る。

Braintrust Dataも大規模言語モデルを活用した生成AI評価システムを提供している点では上記の企業と同じであるが、そのアプローチはDeepchecksやContextなどと若干異なる。Braintrust Dataが焦点を当てるのは、AIアプリケーションを開発するデベロッパー。開発段階におけるAI評価を効率化するツールを提供している。

大規模言語モデルベースの生成AIアプリケーションを開発する際、デベロッパーは、いくつのAIモデルを選定し、各モデルに対し任意のデータ／プロンプトを与え、そのパフォーマンスを評価する。これは期待する出力が生成されるまで繰り返されるプロセスで、通常多くの時間を要することになる。

思い通りの出力が生成されない場合、出力の最適化に向け、プロンプトを変更したり、パラメータを変更したりする必要があるためだ。アプリケーションにもよるが、複雑な場合はプロンプトやパラメータ変更が連鎖的な影響を引き起こす可能性もあり、開発チームが予期せぬ事態に直面するケースも少なくない。

Braintrust Dataは、TypescriptとPython形式で利用できる評価ツールを提供、開発チームが開発環境で迅速に評価できる仕組みを整備している。

Braintrust Dataの創業者でCEOを務めるアンクル・ゴヤル氏は別のAIスタートアップImpiraをFigmaに売却した経験を持っており、シリコンバレーの起業家／ベンチャーキャピタル界隈でも知られた人物。創業間もないスタートアップであるにも関わらず、Braintrust Dataはすでに、Airtable、Zapier、Instacartなどを含む数百社の法人顧客を抱えているという。

このようにさまざまなAI評価ツールが登場することで、今後AIアプリケーションの安全性や正確性を改善する動きが加速、それに伴い生成AIアプリケーションへの信頼度も高まることが予想される。

文：細谷元（Livit）