データ収集・加工

データ収集・加工

クローリング&スクレイピング

例えば、ある業種の以下の店舗情報

  • 店舗名
  • 住所
  • 電話番号
  • FAX番号
  • メールアドレス
  • ホームページURL

をあるウェブページから抽出したいとしましょう。

10件程度であれば、もちろん手作業でコピペ(コピー&ペースト)すれば良いですし、少し注意深く作業すればエラーが生じることもないでしょう。

しかし、これが100件、1000件となればどうでしょう。このような単純な作業を人間が行うのは効率的ではありませんし、エラーも発生します。

このようなルーチンワークはコンピュータープログラムに任せればよいのです。

このようにあるウェブページから必要なデータを抽出することをスクレイピングと呼びます。また、あるウェブページ内にあるリンクをたどって(クローリングと呼びます)複数のウェブページにアクセスし、スクレイピングすることも出来ます。

弊社では、以下のコンピューター言語をケースバイケースで使い分け、検索クローラーを作成し、スクレイピングし、欲しいデータを抽出し整形することができます。

  • Python
  • Ruby
  • PHP
  • JavaScript
  • エクセルVBA
コンピューター言語

ご相談の際には、何をしたいのかを具体的にお伝えください。法的に問題ないかどうかも含め、スクレイピングの可否、納期、お見積り額をお知らせいたします。