各業界で活用されているAIアプリケーション。今や業務や生活に欠かせない存在となりつつあり、技術の進化も目覚ましい。一方で、AIアプリの成功評価基準について議論が広がっている。多方面から検証される成功評価、その現状と課題はどのようなものか。サンフランシスコに本社を置くテックサイトVentureBeatがこのほど、AIアプリの成功評価方法について記事にしている。

AIアプリの神髄

通常のアプリとAIアプリの違いは、生成物の曖昧さだ。同じようなインプットをしても、コンピューティングのプロセスによって回答が異なり、それがAIアプリの醍醐味でもあるとともに、アプリの効率を評価する際の難しさでもあるとされている。

ビジネスタスクをこなす従来のアプリには「反復」と「予測可能性(意外性のない)」が求められ、これが機能性の要となってきた。一方で、爆発的人気となったAIアプリのChatGPTでは、真逆の「毎回異なる」「予測不可能」なアウトプットが魅力だ。機械学習と深層学習でのアルゴリズムの産物で、AIには学習によって進化した回答(アウトプット)が期待されている。

AIアプリのアウトプットは、データ品質に拠るところが大きい。アプリで成功評価を得るには、エッジケースを含む多様なデータやシナリオから「学習」しなければならない。トレーニングのベースとなるデータの妥当性と正確性が、AIアプリの成功評価を大きく左右するからだ。

とはいえ、AI自体がまだ比較的新しいことや、データの品質と多様性の基準が現在まだ確定していないといった点で、アウトプットはアプリによって大きく差が出ているのが現状だ。

加えて、人間によるバイアスが影響を与えることも否定できない。人それぞれのインプットや解釈の差異が、AIアプリのアウトプットの差を生む可能性は避けられない。ただ同時に、こうした差異があるからこそ、AIアプリが学習するという点もあり、事は複雑だ。

難解なアプリの成功評価

このようにしてAIアプリは、ユーザーの満足度、主観的評価、ユーザーに特化したアウトプットを加味して成功評価が測られるとすると、一筋縄ではいかない。

期待値に基づいたAIアプリの成功評価は難しいことがわかっている中、同記事では課題の克服として以下の3点を提言している。

まず1つ目は、確率としての成功の測定基準の設定だ。単一でないアウトプットを生成する性質のAIアプリに従来の評価基準はまったく当てはまらないため、確率的アウトプットを記録できるよう、特別に設計する必要がある。正確性や的確性のみにこだわらず、信頼区間や確率分布などを利用することでより包括的な成功のイメージを評価しやすくなるとされている。

2つ目は、より強固な検証と査定の設定だ。サンプルデータに対する包括的なテストやベンチマーキングの実施、さまざまな状況下でのシステムの感度分析などといった、より厳密な検証と評価のフレームワークを作成することが求められるとしている。この評価基準はしかしながら、定期的にアップデートと再訓練をする必要性がある。日々進化するデータパターンに適応し、正確性や信頼性を維持しなければならないためだ。

3つ目は、ユーザーを中心とした評価の採用だ。AIアプリの成功は、アルゴリズムだけでは判断できない。アウトプットの有効性は、使う側の評価も重要であり、利用者の主観的評価とフィードバックが成功評価には欠かせない。

特に消費者向けのツールの場合、この点は非常に重要だ。アンケート調査やユーザー調査、定性的評価を実施するといった従来のやり方で、ユーザーの満足度やユーティリティの信頼度、受け止め方といった重要な情報を収集する。客観的なパフォーマンス測定基準に、ユーザーを中心とした評価を合わせることで、より相対的な成功評価が生み出せるというわけだ。

AI向けのOKR

AIの利用が高まるにつれ、企業はどのようなパフォーマンスを測定し、何を管理するべきか、変革を求められている。新たなパフォーマンス指針を設定し、既存のものを改良することで何が促進要因となるかを見極める必要があるからだ。

そこで提言されているのがOKR(達成目標と主要な結果)の設定だ。採用しようとしているAIアプリが企業の既存OKRにリンクしていなければ、当然のことながら無駄な投資となる可能性が高い。

一般に、企業が段階的に採用しているOKRは、顧客満足度、マーケットシェアの獲得、収益の強化などに注力している。また、生成系AIは現在、コード品質の向上、より迅速でフレンドリーなカスタマーサービス、エンゲージメントを向上させるSNSやマーケティングコンテンツの生成、校閲などの機械的作業の低コスト化といったOKRに貢献できるとされている。

ただし、低コスト化に関しては、イノベーションに投資することと相反し、今後はこの削減できたコストがベースラインとなるため、期待値を高めないよう警告もしている。

では、飛躍的な効果を最大限に生かすためにAIアプリを活用する、ベストプラクティスのために必要とされることは何か。

まずは、組織内の意思決定者間でのデジタルフルーエンシー、AIを受け入れる態勢、データ倫理スキルを確立すること。さらに、データサプライチェーンのモダン化。自社で独自のAIアプリを導入する場合には、データサイエンス部門が適切なデータにアクセスできることと、管理職へアプローチ可能であることを確実にすること。顧客のニーズに関する自身の知識を展開させて、AIアプリが目標に沿った結果を生み出すこと、それに試験的なパイロットプログラムを奨励することだとしている。

態勢が整い、パイロットプログラムを導入して改善点を模索するための成功評価は、主に次の項目から判断する。

・目的を達成できたかどうか
・AIアプリによって利益を得るのはステークホルダーか顧客か。不利益を被るグループの存在はなかったかどうか
・ネットワーク外部性の向上が見られたか
・改善点を見いだせたか
・AIは人間の作業と比較して、迅速・良好・安価に結果を出せたか。新たな発見や、手動での作業と比較して、マイナス点はなかったか

さらに、正確さ、完了までにかかった時間、必要とされた微調整の量にも注目すべきである。

AIアプリの成功評価には、こうしたアウトプットの蓋然性を認識した微妙なアプローチが要求されることがわかった。この曖昧さは、今後AIツールの作成や微調整に関わるあらゆる人々に、課題となって降りかかることは確かなようだ。

これほどまでにテクノロジーが発展した世の中でも、従業員の職務評価や人事考課はいまだに非常に難しく、センシティブな作業だ。評定を任される上司や人物の主観的評価が中心となり、些細な事が査定を大きくマイナスに持っていく可能性も、その逆も多々ある状況で、これを完璧に解決する方法はいまだ見つかっていない状況だ。

現在のテクノロジーでは、AIアプリそのものが考え、学習し、創造できるため、アプリそのものが、一人の人間と同じだと言えるかもしれない。だとすれば、AIアプリの評価も同じと考えてみるのも一案だ。

日々学習し、蓄積して活用するデータやシナリオを、日を追うごとに増やして自ら経験値を高めていくAIアプリは、新入社員ととらえるべきなのかもしれない。日常のタスクを遂行し、業務目標を達成したかどうか、生身の人間同様の職務評価から始め、その評価にAIがどのようなアウトプットをしてくるかもまた興味深そうだ。

文:伊勢本ゆかり
編集:岡徳之(Livit