ウェブスクレイピングとは、既存のアプローチを解説
生成AIの発展を支える重要な技術の1つが、ウェブスクレイピングだ。ChatGPTやLlama、Geminiといった大規模言語モデルの学習には、膨大なデータが必要となり、そのデータ収集において中心的な役割を果たしているのが、この技術なのだ。
ウェブスクレイピングとは、端的に言えば、ウェブサイトから公開データを自動的に収集するプロセスを指す。人手による手動収集ではなく、スクレイピングツールを使用することで、わずか数分で大量の情報を取得できる。
具体的な活用例を見てみたい。Eコマース企業は価格比較や競合分析のために、公開されている価格データや顧客レビュー、製品説明などを収集。またサイバーセキュリティ企業は、ウェブ全体の脅威を監視するためにスクレイピング技術を活用している。さらにはブランドモニタリングの文脈では、企業に関する言及やセンチメントを追跡する用途でも利用されている。
スクレイピングのプロセスは、大きく5つのステップで構成される。まず対象となるウェブサイトを特定し、次に対象ページのURLを特定する。その後、HTMLを取得するためのリクエストを行い、HTMLから必要な情報を抽出。最後に、収集したデータをCSVやJSONフォーマット、あるいはデータベースに保存する流れとなる。
主要なアプローチは、大きく3つ挙げられる。1つ目は、コーディングを必要としないノーコードやローコードのソリューション。ブラウザの開発者ツールやブラウザ拡張機能、RSSフィード、ウェブスクレイピングサービスなどが、この分類に含まれる。2つ目は、サードパーティのスクレイパーAPI。実装が迅速で、広範なドキュメントが用意されている。3つ目は、より高度なスクレイピング技術。APIやScrapy、ヘッドレスブラウザ、ウェブクローリングフレームワークなどが該当する。
これらは既存のウェブスクレイピングアプローチとなるが、これらのアプローチには一連の課題が存在する。主要な課題としては、対象ウェブサイトによるブロック、スケーラビリティの問題などが挙げられる。また、ウェブサイトのデザインや機能、レイアウト変更に伴う対応にも多くの時間とコストがかかっているのが現状だ。
ウェブスクレイピング市場の拡大、その背景
AI市場の発展に伴い、ウェブスクレイピング関連の市場も活況の様相を呈している。たとえば、モバイルやウェブデータを含む「代替データ市場」の規模は、2023年時点で49億ドルだったが、年平均成長率28%で拡大し、2032年には423億ドルに達すると予想されている。ウェブスクレイピングソフトウェア市場も、すでに8億ドルを超え、2030年までには18億ドルに拡大する見込みだ。
業界別にウェブスクレイピングデータの利用状況を見ると、Eコマース業界が最大となる。市場シェアは24%。業界のプロフェッショナルは、家電製品、住宅、食品などの価格追跡を自動化し、消費者物価指数の算出に活用。これらのデータは、価格調整や製品提供の最適化に貢献している。さらに、公共セクターや学術分野でも活用が進んでいる。ジャーナリストや研究者は、政治動向や世論の追跡に活用。ブラウン大学やウォートン大学は、研究者のニーズに応えるため、サードパーティのプロバイダーと提携。医療研究分野では、医学ジャーナルや臨床試験、患者フォーラムからデータを抽出し、医療動向の把握に活用されている。
このような状況下、2024年のウェブスクレイピング技術は、AIとの統合によって新たな進化を遂げつつある。AIを活用したスクレイパーは、HTMLページを理解し、必要な情報を抽出できるようになった。また、ウェブサイトの変更をリアルタイムで把握し、レイアウトやコンテンツ構造の変更に即座に適応する機能も実現している。
また、ChatGPTなどの対話型AIチャットボットの普及により、ユーザーはより直感的で使いやすいインターフェースを求めるようになっている。この傾向は、ウェブスクレイパーにも波及。シンプルな対話を通じて操作できる直感的なツールへと進化を遂げている。
Oxylabs、生成AIとウェブスクレイピング技術を融合
生成AIとウェブスクレイピング技術の融合を主導する企業の1つが、2015年に設立されたOxylabsだ。同社は、ウェブインテリジェンス/プレミアムプロキシプロバイダーとして、ビッグデータソリューションを提供。フィナンシャル・タイムズのFT1000リストにおいて、2022年から2024年まで3年連続で欧州で最も成長の速いウェブインテリジェンス企業に選出されるなど、注目される存在となっている。
2024年10月、同社は業界初となるAIアシスタント「OxyCopilot」を発表した。OxyCopilotは、AIと同社独自の技術を組み合わせたウェブスクレイピングソフトウェア。URLと自然言語プロンプトだけで、Web Scraper APIのパース指示とリクエストを生成できる。HTMLページを完全に理解し、必要な情報を高精度で抽出できるAI機能と、ウェブサイトの変更をリアルタイムで把握し、レイアウトやコンテンツ構造の変更に即座に適応する機能が統合されている。これにより、従来は複雑なコーディングスキルが必要だったウェブスクレイピングのタスクを、シンプルな対話形式で実行できるようになった。
オンラインショッピングサイトの価格データ収集、不動産情報の追跡、市場調査データの収集など、幅広いユースケースに対応。プロキシ管理からウェブブロック解除まで、包括的なデータ収集プラットフォームとしての機能も備えている。
OxyCopilot開発の背景には、ウェブデータ収集への需要増加がある。同社がCensuswideと共同で実施した英米の開発者/ウェブスクレイピング実務者を対象とした調査によると、74%が過去1年間でパブリックウェブデータへの需要が増加したと回答。一方、多くの企業にとってインフラ構築やデータパーサー保守が課題となっているほか、適切なパース処理だけでも週40時間の開発時間がかかっていることも明らかになった。
OxyCopilotは、こうした課題を解決することを目的に開発された。特に小規模企業にとって、ウェブスクレイピングの専門家チームを雇用することは、人材の希少性と高コスト問題で困難であったが、OxyCopilotの登場により、この障壁を克服できるようになる。さらに、サーバーなどコストのかかるインフラの維持管理を回避できることも中小企業にとって朗報となる。
同社は現在、この実装技術の特許を申請中という。また、AIと機械学習(ML)を活用し、パブリックウェブデータの収集プロセス全体の自動化を実現する目論見だ。
文:細谷元(Livit)