まだ知らない？Webクローラーのあれこれ - Octoparse

マーケティング、SEOを担当されている方ならWebクローラーやクローリングといった言葉をよく耳にするのではないでしょうか。今回はそんなWebクローラーに関する基礎知識について紹介します。

Webクローラーとは？

Webクローラーとはインターネット上に公開されているテキスト・画像・動画などの情報を自動で収集し、データベースに保管するプログラムのことです。「ボット（Bot）」、「スパイダー」、「ロボット」などとも呼ばれます。

Webクローラーの種類&機能

１．検索エンジン用クローラ

サイトを巡回して、そのサイト内の文字や画像を収集して、検索用元データとして蓄積するためのクローラです。これはもっとも知れている利用方法です。

著名な検索エンジンのクローラーは以下の通りです。
Googlebot（Google）
Bingbot（マイクロソフトが運営するbing）
Yahoo Slurp（日本以外のYahoo!）
Baiduspider（百度）
Yetibot（Naver）

２．定点観測用クローラ

定点観測と言えば、決まったサイトの、決まったページのみを定期的に巡回して、サイトの新着情報、更新情報を取得するためのクローラです。例えば、複数の価格サイトから、商品ごとの価格データを取得ことで、毎週の価格変動を分析し、価格、価格増減等をまとめた販売戦略資料を自動作成できます。ここでは、「Octoparse」というWebクローラーツールがあります。Octoparseの有料版だと、スケジュールを設定でき、定期的にクローリングを実行できます。無料版だと、スゲージュルに制限がありますが、十分すぎるくらいの機能があります。無料版と有料版の違いについては、料金表を参照してみてください。

３．SEO対策クローラ

SEOにおいて、クローラーはページをインデックスすることで、検索結果にページを表示させるという役割があります。なので、クローラーがサイト内のどのページを読み込んでいるかについては、SEO対策において改善策を練るための指針の１つになります。「Google Search Console」というGoogleが提供している無料ツールがあります。このツールを用いることで、クローラーの行動に関して詳細な情報を入手することが可能です。

Webクローラーを活用する場合の注意点

「岡崎図書館事件」を聞いたことがありますか？岡崎市立中央図書館Webサイトから新着図書データを自動で取得するプログラムを実行し、同サイトの一部機能を利用できない状態にしたため、利用者の一人が逮捕された事件です。

「Webクローラー」を活用することで、事業、営業、マーケティングを効率的に進めることができるようになります。でも、Webクローラーを運用するには、注意すべき点があります。

複数のページから情報を抜き出す場合に、連続アクセスするとWebサーバーに負荷をかけてることになります。その場合クロールされる側の迷惑になったり、DoS攻撃（サーバーに過剰な負荷をかけてサービスを妨害する攻撃）とみなされることがあります。

ですから、サーバーにあまり大きな負荷をかけないこと、不必要なアクションをトリガーしないこと、またそのWebサイトを適切な間隔で繰り返しクロールできるようにすることが重要です。