生成AIへの投資増加も、データ品質などの課題に　最新調査で明らかになった生成AI普及のボトルネックとは？

2024.8.31

細谷元

企業の生成AI導入が加速、マッキンゼー調査で明らかに

ブルームバーグ・インテリジェンスの調査によると、生成AI市場は2022年の400億ドルから2032年には1兆3,000億ドルに成長すると予測されている。年間成長率（CAGR）は42%に達する見込みだ。

この成長には段階があり、まずAIのトレーニングインフラ市場が成長を牽引、その後、生成AIの推論デバイス、デジタル広告、専門ソフトウェア、サービスに移行すると予想されている。

この急速な成長に伴い、生成AIは2032年までにIT関連のハードウェア、ソフトウェアサービス、広告支出、ゲーム市場支出の総額10%を占めるようになる見込みだ。現在は1%未満となっている。

市場がこの予測に沿った成長を見せるのか、それ以上／以下のパフォーマンスを見せるのかは分からないところだが、マッキンゼーの最新調査（2024年5月30日）では、生成AIの導入は加速の様相を呈していることが明らかになった。

特に注目したいのは、生成AI活用に関する数字だ。同調査では、回答者の65%が自社で少なくとも1つの業務機能で生成AIを定期的に使用していると報告、約10カ月前の前回調査から倍増していることが判明した。この急激な増加は、生成AIが企業にとって単なる関心事から実用的なツールへと進化していることを示唆するもの。

さらに具体的に見ると、生成AIの導入は特定の部門に限定されず、複数の業務機能にわたって広がっていることも明らかになった。回答者の半数が2つ以上の業務機能でAIを採用していると回答、2023年の3分の1未満からの大幅増加を記録した。生成AIの導入が最も進んでいる分野は、マーケティングとセールス、製品・サービス開発、そしてIT部門。特にマーケティングとセールス分野での採用が2023年から倍増しているという。

マッキンゼーの調査では、生成AIの導入によってすでに具体的な成果が出始めていることも報告されている。人事部門では最も多くの回答者がコスト削減効果を実感、またサプライチェーンと在庫管理では5%を超える収益増加が報告された。

ブルームバーグの予測では、市場はここから加速度的に拡大することになるが、次のセクションで触れるように、いくつかの課題が横たわっており、市場拡大にはこれらを解決することが求められる。

DataikuとCognizantの調査で浮き彫りとなった課題

マッキンゼーの調査で生成AIへの関心の高まりと実際の導入ケースの急増が明らかになったが、同時に多くの課題があることも別の調査で浮き彫りとなっている。

たとえば、DataikuとCognizantが2024年4月に実施した世界の大手企業200社の上級アナリストおよびIT責任者を対象とした調査によると、生成AIの実用化において、データ品質／使用可能性が大きな課題になっていることが判明した。実に回答者の45％がデータ品質／使用可能性が課題であると回答したのだ。

これは生成AIに限らず、機械学習モデルの構築においてもボトルネックになってきた問題であり、多くの企業で依然データ問題を克服できていない状況を示す数字でもある。

同調査は、データ品質／使用可能性問題をさらに深堀っている。データ品質／使用可能性に関して、最大の懸念は何かという質問に対して、48％が「クリーンデータの欠如」と回答、また27％が「データ信頼性の欠如」、21%が「ツールやスキルの不足」を挙げた。

一般的に、多く企業ではさまざまなデータが蓄積しており、データ量は豊富にあるといえる。しかし、ほとんどのデータインフラは、生成AIや機械学習を考慮せずに構築されたため、データの互換性がなく、AIのトレーニングとして使用するには「荒すぎる」という問題が、この調査であぶり出されたのだ。

そのため、これらのデータをAIに使用するには、前処理、クリーニング、匿名化、統合が必要となるが、そのプロセスを実行する「ツールやスキル」が不足している状況も数字にあらわれた格好となる。

一方、AIライフサイクルにおけるツールが多すぎる問題も同調査で判明した。AIライフサイクルの各段階で5つ以上のツールやソフトウェアを使用しているとの回答は60％と高いものだった。これに関連して、32％がツールが多すぎると回答、理想的にはツールは5つ以下で済ませたいという回答は71％に上った。

組織内の方針や規制遵守の課題も無視できない。31%の回答者が、組織内の方針や内部規制が生成AIの使用を妨げていると回答。また、26%の回答者がインフラの障壁を指摘している。

生成AIの予算配分についても興味深い結果が得られた。次の12カ月の予算のうち、生成AI専用の予算を設けているという回答は34％だったのに対し、既存のIT予算から捻出するとの回答は51％となったのだ。多くの企業が生成AIを既存のIT・データサイエンス予算の中で扱っている現状が示された。

それでも、73%の企業は今後1年間で50万ドル（約8,000万円）以上を生成AIに投資する予定と回答、また46%は100万ドル（約1億6,000万円）以上を投じる計画と回答するなど、強気の投資ムードは依然続く見込みとなっている。

データ品質で変わるAIモデルのクオリティ

最近、データ品質がAIモデルのサイズやクオリティに大きな影響を及ぼすことを如実に示す事例が増えてきており、DataikuとCognizantの調査結果を踏まえても、今後データ品質を改善できるツールの需要は確実に高まると予想される。

たとえば、マイクロソフトが最近リリースした統合ビジョンモデル「Florence−2」はその好例といえるだろう。

Florence−2は、ビジョンタスク向けのAIモデルで、2億3,200万パラメータと7億7,100万パラメータの2つのサイズで開発された。パフォーマンス比較で、後者の7億7,100万パラメータモデルが、100倍以上規模が大きなグーグル・ディープマインドのビジョンモデル「Flamingo（800億パラメータ）」を上回ったのだ。

これまで大規模言語モデルの開発では、機械学習コミュニティなどで構築された既存のデータセットを使うことが多かった。しかし、これらのデータセットのクオリティは、重複などもあり、高いといえるものではなかった。マイクロソフトは、Florence−2の開発にあたり、データセットを見直すところから出発。データセット専用のモデルによるアノテーションやフィルタリングを行い、エラー修正や不適切なアノテーションを除去しつつ、高品質なデータセットを構築し、それをAIトレーニングに使用したのだ。結果、非常にコンパクトながら、高い性能を持つAIモデルが完成した。

Florence−2だけでなく、ほかにもさまざまな高性能・小型モデルの開発が進められており、AIモデルの小型化・高性能化トレンドが形成されつつある。

文：細谷元（Livit）