AIの学習データをめぐる競争　アップルとシャッターストック提携などに見る競争激化とその最新動向

2024.5.19

AIの普及が飛躍的に進んでいる昨今、その機械学習に欠かせないデータをめぐる競争が激化している。

先日、アップルがロイヤリティフリー素材提供最大手のシャッターストックと2,500万ドルから5,000万ドルで提携し、AIモデルの学習用に数百万点の画像のライセンスを取得したとの報道があった。メタ、グーグル、アマゾンなどのテック大手も、シャッターストックと数千万ドル規模の契約を結んでいるようだ。グーグルは年間6,000万ドルでコンテンツ共有プラットフォーム大手のRedditのデータ独占利用権を得たとも報じられており、高品質な学習データの経済的価値の高さがうかがえる。

一方で、テック企業が著作権のあるニュース記事や書籍、ソーシャルメディアの投稿などを無断で使用していることに対し、出版社やクリエイターからは不満の声が上がっている。

急速に盛り上がると同時に、数多くの課題も抱えるAIの学習データ市場について最新動向をお伝えする。

AIのトレーニングに欠かせない高品質のデータ

チャットGPTによる業務効率化など、ビジネス分野においてもAIの存在感は増すばかりだが、AIを機能させるのに不可欠なのが、適切な機械学習モデルのトレーニングだ。

ラベル付けや前処理などの工程を経たデータは、より機械学習に適した形に整えられ、その後、機械学習モデルがこのデータを解析し、パターンや特徴を抽出して学習することで、最終的にはモデルが新しいデータに対して正確な予測や判断を行えるようになる。

このようなトレーニングにおいて重要になるのが、AIに特定のタスクを行うためのパターンや関連性を学ばせるための膨大な量の「高品質」なデータだ。

データの品質や多様性は、トレーニングの成果、ひいてはAIのタスク処理能力に大きく影響するため、高品質のデータには非常に高い価値がある。

アップルとシャッターストックの提携

数億の素材を提供するオンラインコンテンツ提供の最大手シャッターストックシャッターストック公式チャンネルより

アップルが4億を越える大量の写真、ビデオクリップ、音楽素材の提供を行うシャッターストックと数百万枚の画像のライセンスを供与する契約を結んだのも、このAIのトレーニングにおけるデータの重要性を表している。

メタ、グーグル、アマゾンに続き、シャッターストックの保有するデータの利用を開始したアップルの正確な契約条件はまだ公表されていない。しかし、この秋に発表が予定されている生成AI技術を搭載すると話題のiOS18の画像データベース整備に向け、アップルのAI学習データ確保の取り組みが本格化していることは間違いない。

アップルは、このシャッターストックとの契約に続いて、オンライン写真共有サービスおよび画像ホスティングウェブサイトのPhotobucketとの間でも、ライセンス契約を締結することを検討している。

AI搭載のiOS18発表に向け、アップルのAI学習データ収集が加速
UnsplashのLaurenz Heymannより

活性化するAIの学習データ市場

AIのトレーニング・データに対する需要の高まりと、それに伴う市場の活性化は明らかだが、ロイターの報道によると、コンテンツの種類や買い手によって、このようなAI学習用データの価格には大きなばらつきがある。

例えば、AIデータ会社Defined.aiのダニエラ・ブラガCEOは、ロイターのインタビューに、企業は一般的に画像1枚につき1～2ドル、短編動画1本につき2～4ドル、長編動画1時間につき100～300ドル、テキストは1単語につき0.001ドル程度を支払うと答えている。

シャッターストックの競合企業であり、約2億枚の画像アーカイブを保有するFreepikは、その大部分を1画像あたり2〜4セントでライセンス供与する契約を大手ハイテク企業2社と結んだとロイターに語っている。

グーグルはRedditのデータ独占利用権獲得

アメリカの2ちゃんねるとも呼ばれる投稿サイト「Reddit」 Reddit 公式チャンネルより

一方、グーグルは、AIシステムを訓練するためのデータに独占的にアクセスするため、アメリカの投稿プラットフォームRedditと、年間6,000万ドルの契約を結んだと報じられている。

Redditは日本ではそれほど知られていないが、アメリカ版2ちゃんねると呼ばれるほど、アメリカやイギリス、カナダ、オーストラリアなど諸外国で広く使用されている投稿プラットフォーム。この契約により、GoogleはRedditの保有する膨大なデータにリアルタイムでアクセスできるようになるという。

RedditのCEOのSteve Huffman氏は、「データライセンスは我々にとって新しい潜在的なビジネスだ」と述べており、同社はグーグル以外にも匿名のAI企業と6,000万ドルのAIトレーニング契約を結んだことがブルームバーグによって報道されている。

AIの学習データにまつわる論争も過熱

AIの学習データに関しては、その市場だけでなく論争も過熱している。

テック大手企業が、著作権で保護されたコンテンツを含む膨大なオンラインデータを、作成者からの明示的な許可なしにAIのトレーニングに使用している可能性がかねてより示されており、知的財産の侵害を訴えるメディアやクリエイターの声が高まっている。

トレーニングデータへのアクセス料をコンテンツ作成社に支払うライセンス制度を求める声もある米国では、議会の公聴会で、メディア業界からライセンスの義務化に賛成する意見が相次いだ。

しかし、すべてのトレーニングデータをライセンス供与することの実現可能性については疑問も呈されており、法的義務付けや業界の規範のありかたについては、まだ議論が続いている。

ニューヨーク・タイムズ紙はオープンAIとマイクロソフトを著作権侵害で提訴

著作権侵害でOpenAIとマイクロソフトを訴えたニューヨーク・タイムズ
UnsplashのJon Tysonより

アメリカでは、この論争が訴訟に発展している。

昨年末、ニューヨーク・タイムズは著作権侵害でOpenAIとマイクロソフトを訴え、同社の大量の記事が、チャットボットのトレーニングに使用されていると主張。数十億ドルの損害賠償と同社のコンテンツを含むAIモデルの破棄を求めている。

急速に発展するAIデータ市場、新たに生じる懸念

AIトレーニングデータ市場は、Business Research Insights社によると、現在約25億ドルの価値があると推定され、10年以内に300億ドル近くまで成長すると予測されている。

当然、このようなデータの持つ価値に各方面から強い関心が集まっているものの、著作権問題だけでなく、オンラインサービス利用者のプライバシーとデータの権利に対する影響など、この市場に関連して発生する問題に対する懸念は払拭されてはいない。

その利便性で次第に生活や仕事の必需品となりつつあるAIだが、様々な側面で適切な法整備やガイドラインの作成が求められている。

文：大津陽子
編集：岡徳之（Livit）