まだ知らない?Webクローラーのあれこれ
マーケティング、SEOを担当されている方ならWebクローラーやクローリングといった言葉をよく耳にするのではないでしょうか。今回はそんなWebクローラーに関する基礎知識について紹介します。
Webクローラーとは?
Webクローラーとはインターネット上に公開されているテキスト・画像・動画などの情報を自動で収集し、データベースに保管するプログラムのことです。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれます。
Webクローラーの種類&機能
1.検索エンジン用クローラ
サイトを巡回して、そのサイト内の文字や画像を収集して、検索用元データとして蓄積するためのクローラです。これはもっとも知れている利用方法です。
著名な検索エンジンのクローラーは以下の通りです。
Googlebot(Google)
Bingbot(マイクロソフトが運営するbing)
Yahoo Slurp(日本以外のYahoo!)
Baiduspider(百度)
Yetibot(Naver)
2.定点観測用クローラ
定点観測と言えば、決まったサイトの、決まったページのみを定期的に巡回して、サイトの新着情報、更新情報を取得するためのクローラです。例えば、複数の価格サイトから、商品ごとの価格データを取得ことで、毎週の価格変動を分析し、価格、価格増減等をまとめた販売戦略資料を自動作成できます。ここでは、「Octoparse」というWebクローラーツールがあります。Octoparseの有料版だと、スケジュールを設定でき、定期的にクローリングを実行できます。無料版だと、スゲージュルに制限がありますが、十分すぎるくらいの機能があります。無料版と有料版の違いについては、料金表を参照してみてください。
3.SEO対策クローラ
SEOにおいて、クローラーはページをインデックスすることで、検索結果にページを表示させるという役割があります。なので、クローラーがサイト内のどのページを読み込んでいるかについては、SEO対策において改善策を練るための指針の1つになります。「Google Search Console」というGoogleが提供している無料ツールがあります。このツールを用いることで、クローラーの行動に関して詳細な情報を入手することが可能です。
Webクローラーを活用する場合の注意点
「岡崎図書館事件」を聞いたことがありますか?岡崎市立中央図書館Webサイトから新着図書データを自動で取得するプログラムを実行し、同サイトの一部機能を利用できない状態にしたため、利用者の一人が逮捕された事件です。
「Webクローラー」を活用することで、事業、営業、マーケティングを効率的に進めることができるようになります。でも、Webクローラーを運用するには、注意すべき点があります。
複数のページから情報を抜き出す場合に、連続アクセスするとWebサーバーに負荷をかけてることになります。その場合クロールされる側の迷惑になったり、DoS攻撃(サーバーに過剰な負荷をかけてサービスを妨害する攻撃)とみなされることがあります。
ですから、サーバーにあまり大きな負荷をかけないこと、不必要なアクションをトリガーしないこと、またそのWebサイトを適切な間隔で繰り返しクロールできるようにすることが重要です。
Webスクレイピング用のソフト30選
Webスクレピング (Webデータ抽出、スクリーンスクレイピングとも呼ばれます)は、Webからデータを抽出し、Web上の非構造化データをデータベースやスプレッドシートに格納・分析可能な構造化データへの変換するWeb技術です。
Webスクレイピング技術は、スクレイピングソフトツールによって実現されます。これらのツールは、Chromeのようなウェブブラウザを使用する場合と同じ方法でウェブサイトとやり取りします。スクレイピングソフトは、ブラウザーにデータを表示するだけでなく、Webページからデータを抽出し、それらをローカル・フォルダーまたはデータベースに保管します。
スクレイピングソフトと言っても、コーディングの知識が必要なものから、誰でも簡単にデータ抽出ができるツールまで様々です。今回、人気のスクレイピングソフトを30選紹介します。
Beautiful Soup は、HTMLとXMLファイルをスクレイピングするために設計されたPythonライブラリです。 DebianまたはUbuntuシステムを実行している場合、この無料のWebスクレイピングソフトをインストールできます。
Octoparse は、Windows用の無料Webスクレイピングソフトウェアです。コードを書くことなく、ウェブサイトからの非構造化データまたは半構造化データを構造化データに変換します。プログラミングに詳しくない人にとっては便利です。
Import.io は、ウェブサイトからデータをスクラップしてデータセットに整理することを可能にする、オンラインWebスクレイピングソフトウェアです。使いやすいインターフェースを備えています。
4. Mozenda
Mozendaは、ポイントアンドクリックで、Webからコンテンツを簡単に抽出できるスクレイピングソフトウェアです。
ParseHub は、可視化できるWebスクレピングソフトウェアで、簡単にWebからデータを取得できます。それに、APIを提供していないWebサイトから簡単にAPIを作成できます。
CrawlMonster はウェブサイトのSEOのためのWebスクレピングソフトウェアです。Webサイトにあるさまざまな種類のデータをスキャンできます。
Connotate は、Webデータのスクレイピングを自動化するソリューションを提供します。依頼する場合、スクレイピングするWeb情報のタイプ例を提供する必要があります。
Common Crawl は、クロールされたウェブサイトの公開データセットを提供します。 抽出されたWebページデータ、メタデータ、およびテキストが含まれています。
Crawly は、Webサイトをスクレピングし、JSONまたはCSV形式の構造化データに変換する自動サービスを提供します。
Content Grabber は、企業を対象としたWebスクレイピングソフトウェアです。Webスクレイピングエージェントをカスタマイズすることができます。
Diffbot は、Webページから構造化データをスクレイピングし、WebサイトをAPIに変換できる自動化ツールです。これは開発者向けです。
Dexi.io はプロフェッショナルクラウドスクレイピングソフトウェアで、されたビッグデータマイニングの自動化に向いています。無料プランとプロフェッショナルプランの両方を提供しています。これは、JavaScriptの処理に素晴らしいオプションになります。
Data Scraping Studio は、Webページ、HTML、XML、およびPDFからデータを取得するための無料のWebスクレイピンスクラップソフトウェアです。デスクトップクライアントはWindowsのみで使用できます。
Easy Web Extract はビジネスに向いている可視化スクレイピングソフトウェアです。このソフトウェアのユニークな機能はHTTP送信フォームです。
FMiner は可視化ワークフローデザイナを備えたWebスクレイピングソフトウェアで、マクロレコーダを使ってプロジェクトを構築できます。
Grabby はWebサイトからメールアドレスを取得できるWebスクレイピングサービスです。ブラウザベースなので、インストールは必要ありません。
Helium Scraper は、要素間の関連が小さい場合にうまく機能する視覚的なWebデータスクレイピングソフトウェアです。
Scrape. It はクラウドベースのWebデータ抽出ツールで、Node.jsのスクレイピングソフトです。
ScraperWiki は名前をQuickCodeに変更しました。会社Sensible Codeによって設計されて、PythonおよびRのデータ分析環境です。
Scrapehub は開発者の必要に応じてクローラを拡張できるようにする、クラウドベースのWebスクレイピングプラットフォームを提供します。開発者であれば、これはいい選択になります。
Screen Scraper というスクレイピングソフトは使い方の学習に多くの時間がかかります。経験の浅いユーザーであれば、ソフトウェアを習得するのは簡単ではありません。
Salestools.io は、LinkedIn、Angellist、Viadeoのようなプロフェッショナルサイト上のデータを手軽に取得できるスクレイピングソフトウェアを提供しています。
ScrapeHero はAPIプロバイダとして使うと、Webサイトをデータに変換できます。これは、既存のスクレイピング事業の改革です。
UiPath は業務自動化をサポートするロボティックプロセスオートメーション(RPA)ソフトウェアです。 ほとんどのアプリケーションからWebデータとデスクトップデータの抽出を自動化します。Windowsシステムを実行している場合は、ロボティックプロセスオートメーション(RPA)ソフトウェアをインストールできます。
Web Content Extractor は使いやすいWebスクレイピングソフトウェアです。14日間の無料試用版があります。
WebHarvy はポイントアンドクリック式のスクレイピングソフトウェアです。非プログラマのために設計されています。このソフトは、スケジュールを設定することはできません。
Web Scraper は、ウェブサイトからデータのスクレイピング用に構築されたchromeブラウザの拡張機能です。これは、動的なWebページを対応できる無料のWebスクレイピングソフトウェアです。
WebSundew はEclipseをベースに構築されている、直感的に操作ができるスクレイピングツールです。コーディングを覚えずに情報収集を簡単にすることができます。15日間無料でトライアルすることができます。
Winautomation はWindows用のWebスクレイピングツールです。レイアウトははっきりとわかりやすいです。
Web Robots は、動的JavaScriptの重いウェブサイトをスクレイピングめのプラットフォームです。ソフトウェアは現在ベータ版です。
スクレイピングソフトを使うことで大幅な時間短縮ができるようになりました。Webマーケティングに関わっている人は、すでにWebスクレイピングツールを使っている人も多いとは思いますが、それぞれの特徴を理解して最適なツールを利用してみてください。
Octoparseが日本語化サービスを開始
Octoparseは2016年3月15日に公開されたから2年も経ちました。ここ2年間では、高成長期を迎えており、今年からも多くのアップデートが行われています。
Octoparseの成長に関するチャートがあります:
過去2年間にやったこと
2016年3月15日、初めのユーザーが登録しました。4月に初めのユーザーが契約しました。Octoparseの公開以来、私たちはユーザー体験の向上に専念しています。
1. お客様の要望をより詳しく了解するために、たくさんのアンケート調査を行い、お客様から多くのアドバイスをもらいました。これらのアドバイスに基づいて、ユーザーに役に立つコンテンツの作成は仕事重心になりました。
2. チュートリアル、活用例、FAQ、スクレイピングの紹介ブログなど、600以上のコンテンツを編集しました。各チュートリアルはビデオまたはGIFを使って、操作の手順がよく説明されています。さまざまな目的でWebスクレイピングしたいユーザーにも、Octoparseを使ってデータを取得できるのは私たちの目指すことです。
3. コンテンツ以外にも、すべてのユーザーにタスク作りのサポートを提供しています。毎日平均86件のタスク作りに関する問題を処理します。これまで、40000人以上のユーザーをサポートしていました。
4. ユーザー体験を改善するために、Octoparseを定期的にリリースします。より迅速なデータ抽出を実現するために、追加料金なしで、有料ユーザーのクラウドサーバー数を6から14に引き上げました。2018年3月に新しいバージョンOctoparse V7.0.0がリリースされました。このリリースでは、デザイン、UI、内蔵ブラウザ、ブロック防止機能などを改善しました。
これらの努力により、2016年にサービスを開始して以来、Octoparseは月間ユニークビジター数が5万人を超えるまでに成長しました。今年から新たな顧客獲得に注力することで積極的な事業拡大を図ります。今では全世界の人がOctoparseを利用しており、日本からのユーザーが10%を占めるなど日本でも人気を集めていました。ですから、新たな成長戦略の一環として、日本市場は重要です。
Google TrendsにOctoparse人気度の地域ランキング
実はOctoparseを日本語化するかどうかを長い間に悩んでいます。「世界第3位の経済大国」と言っている日本は「特殊な存在」と思います。Octoparseのユーザーに日本の方は大きな部分を占めるため、やるしかありません。ですから、初めの一歩を踏み出した。2018年6月から日本語でのサービスを開始しました。今後、日本語でOctoparseを利用できるようになります。
新たに開設された日本語版サイトではほとんどのページが日本語化されましたが、ログイン、新規登録、お問い合わせに、クライアント関わるページは英語版のみがあります。でも、日本語でのお問い合わせが対応でき、これからも引き続き改善します。日本から英語サイトにアクセスすると下部にある「Octoparse Japan」から日本語版ページにアクセスできるようになっており、「https://www.octoparse.jp/」で直接日本語版ページにアクセスできます。
多くのユーザーは、「スクレイピングツール」を検索する時、Octoparseに関する文章を見たことがきっとありますよね。それは熱心のユーザーが日本の方にOctoparseの使い方などを紹介するために書いたブログです。今では、新しいバージョンOctoparse V7Xの使い方 、活用例、ブログでは日本語版を用意しており、日本語のFacebook、Twitterアカウントも開始しました。日本では、より多くの人々がOctoparseを知ることに信じています。
Octoparseにはきっと多くの不足が存在していますが、ユーザーとの交流を踏まえて、今までよりも積極的なサービスを提供して、努力を続けることによって、より多くの顧客を獲得できるでしょう。
BIツールとは | おすすめツール5選を紹介!
会社経営には、会社の将来を不安に感じたことがあると思います。例えば「今何が求められているのか」「足りないものは何なのか」など、悩みは尽きません。その悩みを解決するために「ユーザーアンケート」や「市場動向」といった情報が必要です。ですから「情報」の収集が不可欠です。前回ネット情報収集の味方「スクレイピングツール」3選(Octoparse、Import. Io、Scraper)を紹介しました。
ただ、ここで問題になるのが情報の管理方法です。企業が膨大な情報を用いて、迅速かつ精度の高い意思決定を行うためには、BIツールという道具の活用が欠かせません。
BIツールの「BI」とは、「ビジネス・インテリジェンス(Business Intelligence)」のことです。BIは、企業に存在するデータを、収集・蓄積・分析・報告することで、経営上の意思決定に役立てることをいいます。 このBIを助けるシステムを総称したものを「BIツール」と呼びます。BIツールの導入によって、時間と手間を大幅に減少できます。
BIツールが備えている代表的な機能をご紹介しましょう。
1.レポーティング
企業内のシステムからデータを取り出し、見やすいように「ダッシュボード」やなどにまとめて共有することができます。KPIなどのパフォーマンスチェックや、「異常の感知」をすばやくすることで、意思決定を効率よく行えます。
2.ダッシュボード
複数の分析結果をまとめて、チャートやグラフなどを一覧に表示し、気になったものを任意に選び、拡大表示をしながらデータを見比べれば、その問題はどれほど深刻かなどを考えながら監視していきます。
3.OLAP分析
OLAPとは「Online Analytical Processing(オンライン分析処理)」の略で、問題箇所を多角的に分析していきながら要因を深掘るものです。蓄積したデータを「スライシング」「ドリルダウン」などの処理を行うことができます。
4.シミュレーション
今までの結果より得られた改善案の根拠を、科学的に実証するものです。日々の変動に併せて柔軟かつ容易に予測をシミュレーションすることができます。主に経営者が「予算編成」などに使うためのものです。
それでは、どんなBIツールを導入したら良いのでしょうか?今回はおすすめのBIツール5選を紹介しようと思います。
Tableau
ドラッグ&ドロップするだけで、誰でもデータの整理と管理ができてしまうデータ分析のためのソフトウェアです。コンテンツ整理やアクセス分析にぴったりのサービスで、グラフの種類、色、大きさなども自由に簡単に調整が可能です。バージョンによっては、データ共有、共同編集が行えるコラボレーション機能を備えているものもあります。
公式サイト:https://www.tableau.com/ja-jp
QlickView
QlikViewは、現場のビジネスユーザーが、それぞれ革新的な意思決定を行ない、最大限の能力を発揮できるよう真のセルフサービスBIを提供します。オプション機能が充実しており、企業ごとに必要な機能をカスタマイズすることができます。
また、利用制限なく無料で使うことのできるプランもあるため、手軽に始められるツールとなっています。
公式サイト:https://www.qlik.com/ja-jp/products/qlikview
Power BI
Power BI は、マイクロソフト社が開発したBIツールです!データを分析し、洞察を共有し、さまざまなデバイスに対応した機能豊富なダッシュボードでビジネスを監視します。多様なデータ ソースに接続し、データ作成を単純化し、アドホック分析を促進します。また料金は最高でも月額3,270円なのでリーズナブルであるといえますね!また、機能制限付きで無料プランを提供しているので、お試しに利用してみるのもありです。
公式サイト:https://powerbi.microsoft.com/ja-jp/
Actionista!
Actionista!は業種/業務問わず、幅広く活用できるBIツールです。初心者でも比較的使いやすいインターフェースや機能を提供しています。指定されたフォーマットのデータを用意するだけで、分析目的に沿ったダッシュボードが自動生成されるので効率性の高い分析が可能です。
公式サイト:http://www.justsystems.com/jp/products/actionista/
Yellowfin
社内のあらゆるデータをビジュアライズすることで可視化するツールです。グラフや地図などになって見やすくなったデータは、チームで共有することができます。データに基づいた企画立案や調査、意思決定をすることを促してくれます。これらの機能が安定しているためYellowfinは全世界100万人に利用されています!
公式サイト:https://yellowfin.co.jp/
BIツールは、会社の成長をサポートしてくれるありがたいパートナーであると言えます。“ビッグデータ分析で何をしたいのか?”をじっくりと考え、“どんな課題を解決したいのか?”を明確に、基本的な要件定義を行った上でBIツールの導入を検討してみてはいかがでしょうか。
ネット情報収集の味方「スクレイピングツール」3選
みなさんはどのような方法で情報収集をされていますか?
昔の情報収集方法は書籍や新聞の内容をコピー機で複写するか、手打ち入力でデータを作成するかしか手段がありませんでした。とにかく相当な労力を費やした時代です。
ネットが普及した現代社会において、ネットによる情報収集では “コピペ” で楽にデータを得ることができるようになりました。しかし、テキストであればコピペが簡単ですが、コピーした情報をエクセルにそのままペーストすると、余計なリンク情報や画像も一緒に貼られてしまいます。それを整理するのがまた手間です。
そんな時は「スクレイピングツール」が役に立つんですね。このツールを使えば、コードを書く必要がなく、簡単にWebサイトから情報を自動で取得できるので、アッという間に解決することが可能です。業務上、大幅な工数削減に役立つなど重宝します。
今回は、おすすめのスクレイピングツールを3つご紹介します。
Octoparseはwindows用のWEBスクレイピングツールです。PCにインストールして無料で使えます。有料オプションもあり、クラウド抽出やスゲージュル設定など機能が追加されます。ただ無料版でも十分な機能を持っています。
Octoparseの最大の特徴は、ポイントとクリックでデータの抽出範囲を指定できるので、視覚的に理解しやすく、直感的に使えることです。抽出したデータは、エクセル、データベース、JSON、クラウド、CSVなどに保存することができます。
最近日本語でのサービスもスタートですので、とても便利ですね。
Import. IoはURLを入力するだけでデータの抽出ができるツールです。クラドベースのサービスであるため、ソフトウェアなどのダウンロードやインストールは一切必要ありません。ページのURLを入力すると、自動でデータ箇所を判断して情報を集めてくれます。もちろんWindows、Mac、Linuxで使えるスクレイピング用のアプリも用意されています。スクレイピングの終了後、Csv/Json形式でデータをダウンロードできます。さらに、毎週、毎日、毎時のクロール作業をスケジュールできます。現在、無料版は利用できなくなっているようで、最低利用金額は$299からです。
ScraperはChrome拡張機能で、インストールが簡単で、複雑な操作・設定手順もありません。Google Chromeを使っている人であれば誰でも簡単にスクレイピングができます。取得したデータをそのまま Googleスプレッドシートに保存することができ、GoogleAppsや Googleカレンダーなど Google連携機能が使える点が魅力です。拡張機能の一つなので、無料で利用できます。
通常、WEBスクレピングには専門のプログラミング知識を必要とします。このようなスクレイピングツールがあれば、簡単にWebサイトから情報をスクレイピングできます。しかも大幅な時間短縮ができるようになりました。
活用するなら、マーケティング、価格調査、在庫調査、データ分析など様々な用途がありますよね。皆さんもぜひ利用してみてください。