スクレイピング
スクレイピングはWebスクレイピングとも呼ばれる。
情報をインターネットから得ようとする際、検索サイトでキーワードを検索し、目的の情報が記載してあるWebページを読み込んで情報を入手している。
アクセスしているWebページは視覚的には見えてはいないが、HTMLというコンピューター言語で構成されており、そのHTMLの情報をWebブラウザが人が見やすいよう視覚化してディスプレイに表示している。このHTMLの情報をプログラミング言語を介して入手することをスクレイピングと呼ぶ。
ではどのようなときにスクレイピングは行われているのか。例えば証券会社が提示している株価の情報や、ショッピングサイトのある商品の値段など、インターネット上には日々更新される情報が大量に存在する。このような情報を確認する際に、いちいち目的のページにおいて確認することは面倒であり、表示が大きく変化した際に通知されることが望ましい。そこでスクレイピングの技術を用いれば、コンピューターに定期的にアクセスさせ、目的の情報が変化したときに通知がくるような自動化ソフトを作ることが可能になる。
手に入れたい情報が1つや2つの場合、定期的に手動でアクセスすることでも対応は可能だが、数百、数千の会社の株価の情報や商品の価格を定期的に確認することは現実的ではない。
このような場合、スクレイピングし、インターネット上から情報を得る自動化ソフトを作ることで、短時間で多くの情報を得ることが可能となる。
ではスクレイピング技術に問題点がないかというとそういう訳でもない。
WebサイトのHTML情報は人間が見やすい形で視認できるようにするものであり、コンピューターに見せる情報ではない。なぜなら、HTML情報は情報量が多く、ネットワークに負荷をかけてしまうからだ。そのため、あまり頻繁にスクレイピングを行なってしまうと、Webサイトからアクセスを拒否される場合もある。また業務妨害罪などの罪で逮捕される例もあるため、サーバーに負荷をかけるようなスクレイピングは行わない方が懸命だといえる。
スクレイピングで得た情報とはいえ、Webサイトの情報の著作権はWebサイト作成者にあるため、情報を公開する際は作成者に確認するなどの措置を施してから使わなければいけない。
【おすすめの記事】