2019-04-17

2019年スクレイピングツールトップ10

Webクローリング、またはWebデータ抽出とも呼ばれるWebスクレイピングは、単にWebサイトからデータを収集してローカルデータベースまたはスプレッドシートに保存するプロセスです。Webスクレイピングを初心者が聞いたら、遠ざけていく専門用語だと思われるかもしれないですが、実はあなたが思っている以上、実用しやすいものです。スクレイピングツールは、求人情報だけでなく、マーケティング、経済やeコマース、および数多くの他業界でも役割を果たしています。

Webスクレイピングツールはさまざまありますが、どれが一番なのかという疑問がある人はたくさんいるでしょう。ネットにあるほとんどのスクレイピングツールは極めて通用され、主に一般的で簡単なタスクを実行するように設計されているのです。つまり、期待しているほどカスタマイズ性や通用性に富んだものではないかもしれません。ご参考のために、この記事では人気のWebスクレイピングツールを10選まとめて、それぞれの特徴を紹介したいと思います。

1. Octoparse

Octoparse はWebサイトから必要とするあらゆるデータを抽出するために使用される、豊富な機能を備えた強力で無料なWebスクレイピングツールです。コーディングせず、インターフェースで簡単なポイントアンドクリック操作をして、Webサイトからすべてのテキストを収集ことが可能です。取得したデータはExcel、HTML、CSV、またはご指定のデータベースのような構造化フォーマットに保存されます。そのほかに、仕組まれたRegexツールでWebサイトにある難しく加工されたデータブロックにでき、仕組まれたXpathツールでWeb要素を正確に見つけることができます。さらにIPブロッキングに悩まされることはもうありません。OctoparseはIPプロキシサーバーが仕組まれているので、積極的なWebサイトに検出されずにIPの自動ローテーションが可能になりました。最後にOctoparseの新しいバージョンはAmazon、TwitterやIndeedなど、さまざまなのWebサイトからデータを抽出するために、すぐに使えるタスクテンプレートを提供しています。

メリット：Octoparseは私が今まで出会った最高の無料データスクレイピングツールです。これから話す他のツールより、Octoparse無料版は取得ページ数の制限なしで最も強力な機能を提供しています。タスクテンプレートでは、パラメータ（ターゲットページURL、検索用のキーワードなど）を入力し、データ収集を待つことだけです。

デメリット：残念ながら、OctoparseはPDFからデータを収集することも画像を直接ダウンロードすることもできません。でも、画像のURLを抽出することができます。

2. Mozenda

Mozendaは、データ抽出に役立つ機能を備えたクラウドWebスクレイピングサービス（SaaS）です。Mozendaのスクレイピングソフトウェアには、WebコンソールとAgent Builderの2つの部分があります。Mozenda WebコンソールはWebベースのアプリケーションで、エージェントの実行（プロジェクトのスクレイピング）、結果の表示と整理、および抽出したデータのDropbox、Amazon、Microsoft Azureなどのクラウドストレージへのエクスポートまたは公開することをサポートしています。Agent Builderは、データプロジェクトを構築するために使用されるWindowsアプリケーションです。データ抽出はMozendaデータセンター内の最適化されたハーベスティングサーバーでで処理されるため、Webリソースの読み込みからクライアントを解放したり、IPアドレスの禁止が検出された場合の脅威を軽減します。

メリット：MozendaはAJAXとiFramesのデータを簡単にキャプチャする包括的なAction Barを提供し、ドキュメントと画像の抽出もサポートしています。さらに、マルチスレッド抽出とスマートデータ集約に加えて、MozendaはIP禁止を防ぐためのGeolocation、バグを修正するためのテストモードとエラー処理を提供します。

デメリット：Mozendaは5000ページあたり99ドルで少し高いです。十分な論理機能を持てず、実行するためにWindows PCを必要とし、大型Webサイトを扱うとき安定性の問題も抱えています。

3. 80legs

80legsは、カスタマイズされた要件に基づいて構成できる強力で柔軟なデータスクレイピングツールです。それは膨大な量のデータの取得と共に、抽出されたデータを即時にダウンロードするオプションをサポートしています。 80legsは、高速に機動し、わずか数秒で必要なデータを取得する高性能のWebクローリングを提供します。開発者は、クローリングネットを広げるために80legs APIを自分のアプリケーションに組み込むことができます。

メリット：80legsは、専用線アクセスを許可し、顧客がクローリングした分だけを支払うようにすることで、Webスクレイピングテクノロジを小規模企業や個人にとってより利用しやすくします。

デメリット：80legsは前に述べたほかのツールほどの適応性がありません。大量のデータを取得したい場合は、カスタマイズ取得するデータ、作成済みのAPI、およびクロールアプリケーションのいずれかを選択する必要があります。

4. Import.Io

Import.Ioは、Webページ内の半構造化情報から構造化データへの変換に役たつWebスクレイピングプラットフォームです。これはビジネス上の意思決定の推進からアプリケーションや他のプラットフォームとの統合まで、あらゆる用途に使用できます。ストレージとテクノロジはすべてクラウドシステムに基づき、Webブラウザ拡張機能を追加するだけでツールを使用できます。シンプルで直感的なポイント＆クリックの操作スタイルは、ページとデータフィールドを簡単に選択することができます。JSON RESTベースおよびストリーミングAPIを介したリアルタイムのデータ検索、多くの一般的なプログラミング言語およびデータ操作ツールとの統合を提供します。

メリット：Import.ioは、ほぼすべてのシステムをサポートする最先端のテクノロジを使用して、何百万ものデータが取得できます。洗練されたインターフェース、シンプルなダッシュボード、スクリーンキャプチャ、そしてユーザーフレンドリーな操作ガイドビデオのおかげで、さらに使いやすくしてくれます。

デメリット：無料プランはもう利用できません。各サブページにも費用がかかるので、多数のサブページからデータを抽出していると、コストがすぐに高まる恐れがあります。それに、Webサイトの構造に大きく依存するから、すべてのWebサイトでは動作するわけではありません。

5. Content Grabber

Content Grabberは、Webからのコンテンツ抽出に使用される視覚的で強力なWebスクレイピングツールです。商品カタログや検索結果などの完全なコンテンツ構造を自動的に収集できます。それはユーザーにとって非常にフレンドリーでありながら、AJAX が使われたWebサイトを含む動的なWebサイトからデータを抽出するのに十分洗練されています。

Content Grabberは、高度なプログラミングスキルを持つ人々により適しています。強力なスクリプト編集、デバッグインターフェースを数多く提供しています。ユーザーはC＃またはVB.NETを使用してスクリプトをデバッグまたは作成し、クローリングプロセスをプログラミングによって制御することができます。たとえば、Content GrabberをVisual Studio 2013と統合して、ユーザーの特定のニーズに合わせて、高度なカスタマイズクローラーに最も強力なスクリプト編集、デバッグ、および単体テストすることができます。

メリット：Content Grabberは、サードパーティ製ツールを使用している多くのユーザーにさらに多くのオプションを提供します。ユーザーはOctoparseやParsehubでサポートされていないスクリプトをデバッグすることができます。

デメリット：Content Grabberは無料版を提供しておらず、最低月額149ドルから始まります。旧バージョン機能はOctoparseの無料版で利用可能であることを考えると、かなりの高価です。その上、OctoparseやParsehubのように使いやすいものではなく、最初の扱いには少し理解しがたいかもしれません。

6. Scraper

Scraperはオンライン調査を促進、データをすばやくGoogle スプレッドシートにエクスポートすることができるわずかなデータ抽出機能を備えたChromeの拡張機能です。Scraperは初心者だけでなく、OAuthを使用してデータをクリップボードにコピー、またはスプレッドシートに保存できる専門家を対象としています。Scraperはブラウザで機能し、対象URLを定義できるXPathを自動生成できる無料のWebクローラーツールです。包括的なクロールサービスは提供されないかもしれませんが、初心者には面倒な設定に取り組む必要はありません。

その仕組みは次のとおりです。特定のデータポイント、価格やランキングなどを選択して、ブラウザのメニューから[Scrape Similar]をクリックすると、データをExcelかGoogle Docsにエクスポートまたはコピーできます。このプラグインは基本的なものですが、素早く簡単にページをスクレイピングするために作られたものです。

メリット：Chromeの拡張機能として、簡単なスクレイピング作業だとScraperがすぐにできることは魅力です。

デメリット：Scraperはただの基本的なクローラーですから、簡単なWebページのみに、限られた抽出機能が持つ単純なクローリングプロジェクトを提供できます。

7. Parsehub

ParseHubはインタラクティブマップ、カレンダー、検索、フォーラム、ネスト化されたコメント、無限スクロール、認証、ドロップダウン、フォーム、Javascript、Ajaxなどを簡単に処理できる視覚的なデータ抽出ツールです。ParsehubのデスクトップクライアントはWindows、Mac OS X、Linuxなどをサポートしています。ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。ParseHubは無料プランのほか、大量のデータ抽出ためのカスタマイズ法人プランも提供しています。

メリット：ParseHubはOctoparseのように、様々なニーズに適応してオンラインデータを収集できます。その利点といえば、Octoparseより多くのデスクトップシステムをサポートするところです。

デメリット：だが、 ParsehubはAPIアクセス権限を持つプログラマーによりフレンドリーです。無料版には5つのプロジェクトと最大200ページまでの制限があります。Octoparseのように、それはドキュメンテーション抽出をサポートしていません。そして、アドバンスアプションを使う時に問題が出るからもしれないので、注意する必要があります。

8. WebHarvy

WebHarvyは、軽くて視覚的なポイント＆クリック式のWebスクレイピングツールです。各種類のWebサイトからテキスト、URL、および画像を抽出することが可能です。抽出されたデータは一般的なフォーマット（CSV、Txt、XML）とデータベース入力用のSQLに保存することができます。また、匿名でスクレイピングし、Webサーバーによるブロック防ぐためのプロキシサーバー/ VPNも提供します。

メリット：WebHarvyは使いやすく覚えやすく安定です。いくつかのエクスポートデータ形式に対応でき、すばやくWebスクレイピングすることに優れています。

デメリット：ドキュメントの抽出をサポートしていないほか、無料版も提供していません。

9. Scrapinghub

Scrapinghubは、インターネットから構造化された情報を抽出するために、いくつかの便利なサービスを提供している開発者向けのWebスクレイピングプラットフォームです。ScrapinghubにはScrapy Cloud、Portia、Crawlera、Splashという4つの主要なツールがあります。Scrapy CloudはScrapy（オープンソースのデータ抽出フレームワーク）Webクローラーのアクティビティを自動化・視覚化することができます。Portiaは機能が制限されていて、非プログラマー向けのWebスクレイピングツールです。Crawleraは、50カ国以上のIPアドレスを持ち、IP禁止問題の解決策です。SplashはScrapinghubによって開発されたオープンソースのJavaScript レンダリングサービスです。Splashブラウザを使うと、JSを使用しているWebページをより適切にスクレイピングすることができます。

メリット：Scrapinghubは、オープンソースフレームワークScrapyや視覚データスクレイピングツールPortiaなど、さまざまな地域の人々に合わせて適切なWebサービスを提供する強力なWebスクレイピングプラットフォームです。

デメリット：Scrapyはプログラマーに向け、Portiaも複雑なWebサイトを扱う場合では数多くのアドオンを追加する必要があるので、簡単に利用できません。

10. Dexi.io

Dexi.Ioは、開発、ホスティング、およびスケジューリングサービスを提供するクラウドベースのWebスクレイピングツールです。なしでポイント＆クリックのUIを備え、コーディングする必要がありません。簡単なタスクを作成するために、Extractor、Crawler、およびPipes、3種類のロボットがあります。取得したデータはJSON / CSVデータとして利用可能であり、またReSTを通して外部アプリケーションからアクセスすることもできます。このWebスイートは、CAPTCHA解決、プロキシソケット、ドロップダウンを含むフォームへの記入、正規表現のサポートなど、最新のWebスクレイピング機能のほとんどを提供しています。また、取得したコードのJavaScript評価もサポートしています。

メリット：ブラウザベースであるため、Dexi.io CAPTCHA解決はより便利なことです。それに、多くの第三者サービス（キャプチャソルバー、クラウドストレージなど）をサポートするから、それらをボットに簡単に統合できます。

デメリット：商用サービスとしてもちろん、無料版を提供していません。また、フローを理解するにはかなり複雑で、デバッグする場合もあるので面倒だと感じます。

いかがでしょうか？あなたのニーズに合わせて最適なスクレイピングツールを見つけましょう！

2019-04-03

Webスクレイピングで知るべき5つのCAPTCHA知識

Webサイトにログインしようとしますが、読みにくい文字を入力するように求められたことがありませんか。これらの判読しにくい文字をCAPTCHAと呼ばれます。ユーザーにとって少し面倒な存在です。さらにWebスクレイパーにとっても利用環境が厳しくなったので、その扱い方に困りますね。

今日はWebスクレイピングでどうすればCAPTCHAをうまく回避するかを知るべき5つの知識についてお話しましょう。

1. CAPTCHAとは

Wikipediaによると、 CAPTCHA という語は(Completely Automated Public Turing test to tell Computers and Humans Apart)（コンピューターと人間を区別する完全に自動化された公開チューリングテスト）のバクロニムです。

特にインターネットで製品を購入する時やWebサイトにログインする時に使用されます。

2. CAPTCHAの仕組み

CAPTCHAは、人間のように機能できるマシンであるかどうかを判断するために使用されるチューリングテストに基づいて作られた技術です。 CAPTCHAの目的は、応答者にコンピューターでは対応できない問題を出して答えさせることです。ゆがんだ文字列と数字が使われることが多いところは人間にとって理解しやすいですが、スクレイピングツールにとってそれを認識するのが難しいです。書籍からスキャンした画像情報、さらにその画像から文字を読み取るように設置されている自動システムがあります。そのような複雑なシステムでさえ、あいまいにされたりひどく歪められたりしたような加工された情報を読み取るにも困難なことです。

3. CAPTCHAの種類

CAPTCHAの種類にはいくつか存在しますが、最も一般的なのはテキストCAPTCHA、画像認識CAPTCHAと音声CAPTCHAです。

テキストCAPTCHAは、2つの簡単な部分からなっています。一つ目は歪んだ画像にランダムな一連の文字または数字で、二つ目は文字または数字を入力するテキストボックスです。画像に表示される内容をテキストボックスに入力することで、応答者は人間であるかどうかを判別できます。

f:id:octoparse:20190403152745p:plain

単に内容を判別することはボットにとってそれほど難しいことではないです。その難易度を上げるために、数字を分かりやすく表示して基本的な数学の問題を出すCAPTCHA、さらに3D効果で文字を表示する3D CAPTCHAなどのデジタル化されたCAPTCHAも作られました。

f:id:octoparse:20190403152808p:plain

f:id:octoparse:20190403152816p:plain

画像認識CAPTCHAは通常、歪んだテキストではなく、物、動物、人間、または風景の画像を応答者に判別してもらいます。それから、パズルのピースを埋めるように正しい画像をドラッグして画像を完成させることで、人間とコンピュータプログラムを区別します。

f:id:octoparse:20190403152828p:plain

音声CAPTCHAは、録音からランダムな単語や数字を適当に組み合わせたり、さらに雑音を入れたりして流し、応答者に聞いた内容を入力してもらいます。スクレイピングボットに音声を判別することが難しいというところは音声判別CAPTCHAの優れた点です。

f:id:octoparse:20190403152832p:plain

4. CAPTCHAが導入された原因

現在では、コンピューティングが普及しつつあり、コンピューター化されたタスクやサービスが一般化になってきました。それで、セキュリティーのレベルアップがより重要なことになってきます。Webサイトでのログインや支払いなどをセキュリティーの環境で行うことを確保するために、コンピューター用CAPTCHAの開発が重要になってきました。

さらに、CAPTCHAはオンラインデータを自動的に収集したり、Webサイト、ブログ、フォーラムに自動的に登録したりするボットとスパムをブロックすることができます。スパム、不正登録、および他の違法行為によるオーバーランからWebサイトを保護します。

5.CAPTCHAの回避策

CAPTCHAは、抽出の過程で設定されたクローラーを簡単に破壊ことができるので、それを回避するのはWebスクレイピングにとって非常に重要です。 CAPTCHAを回避するためのベストな方法はそれを避けられるように最善を尽くすことです。）Webサイトをスクレイプしすぎることは絶対に避け、人間らしく行動してください。

ログインページで避けられないようなCAPTCHAはまだたくさんあります。Octoparseでは、普段通り人間がサイトを閲覧するように、簡単にCAPTCHAを解決することができます。

自分でスクレーパーをコーディングする人々のために、CAPTCHA問題を解決するサービスを提供してくれるCAPTCHAソルバーがあります。たとえば、Death by CAPTCHA と Bypass CAPTCHAはユーザーにAPIを提供し、スクレイピングプロセスにCAPTCHAを自動的に解読することができます。これらのCAPTCHAのソルバーはテキストCAPTCHA、さらにreCAPTCHAも扱うことができます。

CAPTCHAはWebスクレイピングに痛みのような存在と言えるでしょう。しかし、心配する必要がありません。スクレイピングツールとCAPTCHAのソルバーの発展に伴い、CAPTCHAはどんどん器用できなくなっています。いかにどんなCAPTCHAであろうと、それに対応できるボットが開発できます。そのおかげで、私たちはWebスクレイピングを楽しむことができます。

2019-03-20

Webスクレイピングに関するよくある質問

Webスクレイピング

最近では、ビッグデータ分析のため、データ集めにWebスクレイピングが行われることも増えており、スクレイピングという言葉も一般に認知されるようになってきましたが、ほかの分野の多くの人にとって謎のままです。Webスクレイピングサービスプロバイダとして、この謎を解けるために、一般的なWebスクレイピングの質問をまとめて紹介したいと思います。

1. Webスクレイピングとは何ですか？

Webスクレイピングは、WebハーベスティングおよびWebデータ抽出とも呼ばれ、基本的には、ハイパーテキスト転送プロトコル（HTTP）またはWebブラウザを介してWorld Wide Web上で利用可能なデータを取得することを指します。

さらに詳しく： Webスクレイピングの始まりはいつ？これからどうなる？

2. Webスクレイピングは何ができますか？

Webスクレイピングはデータの収集を目的としているため、データを必要とするあらゆる業界に適用できます。これは主に市場調査、価格監視、データ分析＆マイニング、およびその他のほぼすべての分野で使用されています。

さらに詳しく：疑問に答えます！なぜWebスクレイピングを学ぶのか？

3. WebスクレイピングとWebクローリングの違いは何ですか？

WebスクレイピングとWebクローリングは、2つの関連概念です。前述のWebスクレイピングは、Webサイトからデータを取得するプロセスです。Webクローリングとは、通常Webインデックスを作成する目的で、World Wide Webを体系的に閲覧することです。

さらに詳しく：データクローラー

4. Webスクレイピングはデータマイニングですか？

Webスクレイピングとデータマイニングは2つの異なる概念です。Webスクレイピングは生データを収集することですが、データマイニングは大規模データセット内のパターンを検出するプロセスです。

さらに詳しく：データマイニング(Wiki)

5. Web全体からデータを抽出できますか？

Webスクレイピングは、ワールドワイドウェブ全体または少なくとも数十万ものWebサイトからデータをスクレイピングするために使用できると多くの人が信じています。これは実際には実現不可能です。異なるWebサイトは同じページ構造に従っていないため、1つのWebスクレーパーがすべてのページをスクレイピングするののは無理です。

6. ログインしたページにあるデータをスクレイピングできますか？

はい、もしあなたがWebサイト上でアカウントを持っていれば、ログインしたページにあるデータを簡単にスクレイピングことができます。ログイン後のスクレイピングプロセスは、通常のスクレイピングのプロセスと似ています。

さらに詳しく：ログインした後のデータ取得

7. 動的Webページからどのようにコンテンツを抽出しますか？

動的なWebサイトは頻繁にデータを更新します。たとえば、Twitterに新しいツイートが投稿されるのは常にあります。そのようなWebサイトからスクレイピングすることは、他のWebサイトをスクレイピングすることと同じですが、更新されたデータを継続的に取得するために、スクレイパーに特定の頻度でWebサイトにアクセスさせることができます。

さらに詳しく：クラウドでタスクをスケジュール設定する

8. Webスクレイピングで抽出したコンテンツを再投稿できますか？

コンテンツの再投稿は、著作権者の同意を得て行う必要があります。ボットを許可するWebサイトからテキストコンテンツをスクレイピングすることはできますが、それでも著作権を侵害しないようにこのデータを使用する必要があります。

9. Webスクレイピングは違法ですか？

Webスクレイピング自体は、データを効率的に収集する技術ですから、違法ではありません。ただし、非公開の情報を盗むため使ったり、スクレイピング禁止するWebサイトを無断でスクレイピングしたり、著作権者の同意なく著作物をコピーするなどの行為をすると、原則として違法となってしまいます。クレイピングする前にサイトの利用規約を読むことを強くお勧めします。

10. LinkedInやFacebookをスクレイピングできますか？

この2つのWebサイトもrobots.txtファイルによる自動Webスクレイピングをブロックしており、LinkedInのデータをスクレイピングした企業とLinkedInの法的紛争は大きな話題となっています。しかし、もしそれらから公に利用可能なデータとリストを取得するだけなら、この2つのサイトを抽出することは可能です。

さらに詳しく： LinkedInから投稿をスクレイピングする

11. Robots.txtファイルとは何ですか？

Robots.txtは、Webサイトがスクレイピングできるかどうか、またはWebサイトの所有者が指定したとおりにスクレイピングする方法をクローラー、ボット、スパイダに伝えるテキストファイルです。そのため、Webスクレイピング中にブロックされないようにrobots.txtファイルを理解することが重要です。

12. スクレイピングにブロックされないようにはどうすればよいですか？

Webサイトをスクレイピングすぎると、多くのWebサイトがあなたをブロックするでしょう。ブロックされないように、スクレイピングプロセスをもっと人間らしくする必要があります。2つのリクエスト間に遅延時間を追加したり、プロキシを使用したり、異なるスクレイピングパターンを適用したりすると、ブロックされなくなります。

さらに詳しく：ブロックされずにWebサイトをスクレーピングする方法

13. CAPTCHAはWebスクレイピング中に解決できますか？

以前、CAPTCHAはWebスクレイピングの悪夢でしたが、今では簡単に解決できます。多くのWebスクレイピングツールには、抽出プロセス中にCAPTCHAを自動的に解決する機能があります。そして多くのCAPTCHAソルバーをスクレーピングシステムと統合することができます。

さらに詳しく：Webスクレイピングに関するCAPTCHAに知っておくべきこと

14. おススメのWebスクレイピングツールはありますか？

どのスクレイピングツールを選択するかは、対象とするWebサイトの種類とその複雑さによって異なります。必要なデータをすばやく順調に取得するのに役立ち、費用がお手頃なら、そのツールを選択できます。

さらに詳しく： Webスクレイピングツール30選

15. Webスクレイピングツールはサイト上のファイルを直接ダウンロードできますか？

はい、Webサイト上のファイルを直接ダウンロードして情報をスクレイピングするときにDropboxや他のサーバーに保存することができるスクレイピングツールが多くあります。　

2019-03-13

Octoparse法人様向けプラン

Webスクレイピング

3周年を迎える際に、Octoparseは法人様向けプランをリリースしました！法人様向けプランは複数ユーザーのアクセス、Webベースのデータ管理と検索、拡張性のあるクラウドリソースを特徴として、あらゆる規模のデータスクレイピングを達成できます。

Octoparse 法人様向けプランは、様々な大規模なデータ抽出プロジェクトを通じて、法人顧客にWebスクレイピングを簡単にご使用いただくことを目的としています。

効果的に協働する

今、チームワークすることができます！ Octoparse法人様向けプランには、管理者（Administrator）とエージェント（Agent）という2つの役割があります。

管理者は主にアカウント管理、データ管理を担当し、エージェントによって抽出されたすべてのデータにアクセスすることもできます。２名のデフォルトエージェントに加えて、必要に応じてエージェントを追加することができます。

さまざまな役割を分担することで、チームはアカウントリソース、スクレイピングタスク、クラウドデータをより効果的に管理し、協力することができます。

どこでもクラウド内のデータにアクセスできる

クライアントのことを忘れ、今、いつでもどこでもデータを管理することができます。

Octoparse Webコンソールを使うと、いつでもクラウド内のデータにアクセスできます。さらに重要なのは、どのブラウザからでもクラウド内のデータをダウンロードすることです。新しいデータが抽出されましたか？心配しないで、データが自動更新されます。

拡張できるように設計される

法人様向けプランは、拡張性を備えた強力なWebスクレイピング用に設計されています。

デフォルトでは、Octoparse法人様向けプランには2名のエージェントと40個の同時プロセスがあります。必要に応じて、エージェントとプロセスを追加することができます。

Webコンソールを備える

Webコンソールは、法人様向けプランのみ利用可能な新機能です。Webコンソールを使うと、アカウント管理者は簡単に

✔ エージェントの権限を管理する

✔ タスク/データの状況を監視する（クラウド内）

✔ 抽出したデータをどのブラウザからでも直接ダウンロードできる

クラウドリソースの管理

少ないリソースでより強力なスクレイピングが可能です。法人アカウントであれば、クラウドリソースを拡張・管理する可能です。以下の方法で、クラウドリソースの利用を最適化できます。

✔ エージェント間でのリソース共有を有効化/無効化する

✔ 各エージェントに利用可能なリソースを調整する

Octoparseクラウド抽出を使って動的データを抽出する方法について

いつでも力になる！

上記の限定機能に加えて、Octoparseの法人顧客は次のサービスを利用できる：

高級なトレーニング

4時間のパーソナライズされたトレーニングとウェビナーを通じて、法人様向けプランを最大限に活用する方法を学びます。

最優先のサポート

ご不明な点がある場合は、いつでもお気軽にお問い合わせください。弊社のカスタマーサポートが丁寧にお応えします。

専任のサクセスマネージャー

ご利用中のプロセスに、弊社の専任のカスタマーサクセスマネージャーがお客様と協力して、法人様向けプランのすべてが期待通りに機能することを確保します。

デモの予約、要求の打ち合わせ、Octoparseの詳細についてお問い合わせください。

2019-03-06

カスタマー・エクスペリエンスを向上させる6つの方法

ビッグデータ

カスタマー・エクスペリエンス（CX：顧客体験）は、今の競争の激しいビジネスの世界における新しい戦場です。Salesforceの調査結果が示すように、80％の顧客が、企業が提供するエクスペリエンスは製品やサービスと同じくらい重要であると答え、57％の顧客がカスタマー・エクスペリエンスの質の低さによりブランド乗り換えました。

このように、多数の企業でカスタマー・エクスペリエンスの重要性が認識されていますが、向上への取り組みはまだ不十分のようで、顧客の期待と企業の間に大きなギャップがあります。

顧客に高い経験価値を提供して満足してもらい、自社を末永く利用してもらうためには、どのような施策が効果的なのでしょうか？ここでカスタマー・エクスペリエンスを向上させる6つの実用的な方法を紹介したいです。　

1. オムニチャンネルから顧客の声に耳を傾ける

カスタマーサービスを提供する前に、オムニチャネルから顧客の声に耳を傾けることは、顧客のニーズを知るのに最も重要なことです。顧客の声をビジネスで活かす手法としては、従来からアンケート調査や対面のインタビュー調査が一般的でした。事前に設問やストーリーが用意されたうえで回答してもらうので、質問にバイアスがかかり、誘導的な回答が含まれる場合もあります。

しかし、SNSの普及によって、「ソーシャルリスニング」を行う企業が増えています。ソーシャルリスニングでは、顧客の本音を知ることができ、顧客同士での自然なやり取りの中でリアルタイムに捉えて分析し、すぐに行動に移すという、従来の方法と比べてスピード感がある効果的な手法がでてきました。

それに、ソーシャルメディアのスクレイピングツールを使うと、これまでよりも少ない苦労と時間で、企業はWebから顧客のフィードバックを収集するプロセスを自動化することができます。

例、ソーシャルメディアから情報を収集するためのOctoparse内蔵スクレイピングテンプレート。

2. タッチポイント（接点）ではなく、顧客の旅を通じてカスタマー・エクスペリエンスを測定する

カスタマー・エクスペリエンスの測定マトリックスに言及すると、多くの企業はいくつかのタッチポイント、つまり顧客がサービスや製品とやり取りするための個々の取引だけに集中します。もしあなたの会社も同じなら、あなたは重要な情報を見逃すかもしれません。Mckinseyの調査によると、顧客の旅に対するパフォーマンスは、タッチポイントに対するパフォーマンスよりも、顧客満足度や収益、チャーン、リピート購入などのビジネス上の成果との相関が非常に高いことが証明されています。

現在、企業はマルチタッチポイントおよびマルチチャネルの競争が激しい市場に直面しています。旅を中心とする測定マトリックスにより、企業はエンドツーエンドのプロセスに、カスタマー・エクスペリエンスを見ることができます。このようにして、顧客サービスにおいて改善を行う方法を理解することができ、顧客満足度と顧客維持率を向上させます。

3. 顧客を助けるためにEDM（メールマーケティング）を使用する

メールマーケティングは、長い間、多くの企業にとって強力な集客や顧客維持、リピーターの醸成などの戦略でした。統計によると、B2Bマーケターの59％はEメールが収益に最も効果的なチャネルであると答えています。ただし、メールマーケティングも、最も簡単に悪用されて巧妙なツールです。顧客の目的と目標を達成するのを手伝うときだけ、自分のを達成することができます。

特定の顧客グループに適したメッセージを作成するために、顧客セグメンテーション技法を適用し、受信者が個人として扱われるようにパーソナライズ技法を使う必要があります。HubSpotは異なる会社からの素晴らしいメールマーケティングキャンペーンの例を19通集め、参考になるかもしれません。

4. 顧客に豊富なセルフサービスリソースを構築する

簡単に言えば、顧客やユーザーが自分で問題を解決するのに役立つ可能性のあるツールや情報は、セルフサービスツールと見なされます。一般的に言って、セルフサービスリソースには次のものがあります。

オンライン知識ベース;

FAQ（よくある質問）;

チュートリアルとガイド（テキスト、インフォグラフィック、またはビデオ）;

オンラインコミュニティフォーラム;

自動チャットボット;

…

ほとんどの場合、顧客は待つことに時間をかけたくなく、自分で問題を解決することを好みます。ですから、豊富で簡単にアクセスできるセルフサービスリソースを開発する必要があります。

5. 顧客の感情/センチメントに注意を払う

アルゴリズムの改善によって、感情分析ツールを使用すると、顧客の会話に含む感情を正確に理解することができます。効果的なセンチメント分析することで、ソーシャルメディアデータを監視し、製品やサービスに対する顧客からのフィードバックをリアルタイムで判断できます。ですから、ソーシャルメディアのメッセージを調整し、それに応じてオンラインマーケティングキャンペーンを最適化することができます。さらに重要なのは、ソーシャルメディアの危機による被害を防止または軽減することです。さまざまな業界やアプリケーションに焦点を当てて、すでに多くの成熟した感情分析ツールがあります。

6. 自動化ツールを使ってカスタマー・エクスペリエンス管理を促進する

情報技術の発展のおかげで、今のデジタル化では、自動化は避けられない傾向です。このような急速に変化するビジネスの世界では、すべてを手動で解決することはできなくなり、自動化ソフトウェアが今や重要な役割を果たすので、短時間で少ない労力で同じ結果を得ることができます。

上記の5つの手段のためのソフトウェアとは別に、カスタマー・エクスペリエンス管理のソリューションとして、いくつかのソフトウェアもあります。カスタマー・エクスペリエンス管理（CEM）ソフトウェアは、顧客のリスニングと顧客からのフィードバックの分析を統合して単一の完全な顧客ビューを提供し、収益の増加と顧客の満足度の向上につながります。

[カスタマー・エクスペリエンス管理ソフトウェア | Capterra]

まとめ

Mckinseyの分析によると、有効的なカスタマー・エクスペリエンスの向上により、5〜10％の収益向上ができ、2〜3年以内に15〜25％のコスト削減が可能になります。カスタマー・エクスペリエンスの向上は決して難しい手法ではありません。簡単に実践でき、顧客のニーズを知れる貴重な機会になるので、ぜひカスタマー・エクスペリエンスをビジネスに役立ててください。

2019-01-28

Webスクレイピングでビジネスを成長させる方法30個

Webスクレイピング

データが急速に成長していることは皆が知っています。Data Age 2025と題されたIDCの調査によると、2025年までに世界規模のデータは163ゼタバイト（ZB）に増えると予測されています。それに、IBMによれば、1日に2.5百京バイトのデータが作られ、そして世界中のデータの90％が過去2年間で作成されました。このようなデータの大規模な爆発している時代で、ビジネスまたは仕事にデータがどのように使えるかについて考えたことがありますか？

ビッグデータの利用は複雑に思えるが、そうではないかもしれません。Webスクレイピング（別名：Webクローリング、Webデータ抽出など）は、ソーシャルメディア、ニュースポータル、政府の報告書、フォーラムなど、大量のデータをWebから取得して、Excel、CSV、データベースなどの構造データセットに変換する手法です。取得したデータはさまざまな目的のために分析または処理されます。Webスクレイピングはもう新しいことではありませんが、毎日私たちの周りでWebスクレイピング活動が行われていることに気付いている人は多くありません。この記事では、実際の企業がWebスクレイピングを使って何をしているのかを共有したいと思います。

1. コンテンツ集約

AmebaやQittaなどのUGCプラットフォームからあらゆるトピックの投稿を便利に収集できます。ざまざまなの視点からコンテンツの範囲を広げます。

より多くのリソース：

Webスクレイピングでコンテンツマーケティングを促進する方法

2. 競合情報監視

競合他社が行っていること、例えばそのイベント、製品開発、価格戦略、およびマーケティングキャンペーンを常に把握できます。競合他社が何をしようとしているかを知っていることは、自社の戦略を立てる上で重要です。

より多くのリソース：

競合分析 [wiki]

3. 感情分析

Eコマースやその他の公開サイトからレビュー（評価）を抽出することで、顧客の感情やフィードバックを理解します。顧客が考えていることが何かがわかれば、マーケティング施策を考える上で大きな助けになるだろう。

より多くのリソース：

感情分析 [wiki]

4. リードジェネレーション

リードリードジェネレーション（Lead Generation）とは、見込み客（リード）の獲得のことです。見込み客のいるWebサイトがあれば、彼らの電話番号、メール、住所などの必要な情報を取得できます。Webスクレイピングは、数分以内に何千もの見込み客の情報を収集するのに役立ちます。

より多くのリソース：

リードジェネレーション [wiki]

5. 不動産物件を集める

不動産のWebサイト（例えば：SUUMO、LIFULL HOME'Sなど）から物件の詳細と代理店の連絡先の詳細を取得できます。

より多くのリソース：

Octoparseを使って不動産のデータを収集する

6. 市場調査

オンラインで見つかったデータを構造化データに変換し、BIツールを使用してそれらを分析します。カスタム分析は、あらゆる企業にとって重要な公共の需要や行動を効果的に反映することができます。

7. 小売業者／製造業者／Ｅコマースサイト（例えば、Amazon、eBay、Alibabaなど）から製品情報（価格、画像、評価、レビューなど）を収集することによって製品カタログを作成する

8. 様々なソーシャルメディアWebサイト（Twitter、Facebookなど）からデータを収集して、市場の動向を把握する

9. YouTubeやニコニコ動画などのビデオホスティングサイトからビデオの情報を取得する

10. 機械学習

Webから必要なデータをクロールし、それをボットトレーニングするためのデータポイント、画像、またはファイルとします。

11. 検索エンジン最適化

検索エンジン最適化（SEO)監視のために、任意のWebサイトからメタデータ（例：title / description / etc）を収集するか、インターネット検索エンジンの結果をクロールします。

12. 価格監視

Webスクレイピングを使用して、競合他社の商品をリアルタイムで監視します。競合他社の価格戦略を了解し、収益を上げます。

13. 求人サイト（例えば、Indeed、リクナビNEXTなど）の求人情報を収集して求人掲示板を作成する

より多くのリソース：

Octopasreを使って求人情報を整理する

14. コンテンツキュレーション

フォーラムやコミュニティをスクレイピングして、投稿や著者などのデータを抽出します。

15. 政府機関のサイトから規制情報または統計情報を収集する

16. ホテルのデータを抽出し、価格やレビュー（評価）などのデータを比較して競争力を維持するか、このデータを集計して独自のプラットフォームを構築する

より多くのリソース：

Octoparseを使ってホテルのデータを収集する

17. 様々なニュースポータルからのニュースデータをクロールして、ニュース集約サイトを構築する

18. Amazonで最も売れている商品を把握する

より多くのリソース：

Octoparseで商品情報をスクレイピングする

19. あらゆる種類の製品およびサービス用に独自の価格比較サイトを構築する

20. 保険会社のWebサイトから保険の補償範囲を取得する

21. ブランドモニタリング/オンライン評判

ソーシャルメディア、フォーラムなどの様々なチャネルを介して、人々が自社の製品やサービスについての評判を知りたい場合は、自分の興味に関連するデータを取得し、意思決定をより適切にするためのセンチメント分析を実装する自動メカニズムを設定する必要があります。

22. 偽のレビューを検出する

より正確な分析のために、Webクローリングを使用して偽のレビューを除外することができます。

23. 広告実施中のターゲットユーザー

正確な広告ターゲティングのために顧客情報をスクレイピングし、顧客をよりよく理解します。性別、年齢層、購買習慣、趣味などのコメントやレビューを分析して、その特徴に基づいてターゲットを絞った広告を作成することができます。

24. 様々な病院/診療所のサイトから医師の情報を取得する

25. 法的目的のための参考例として過去の判決報告をスクレイピングする

26. レストランや飲食店のメニューをスクレイピングする

27. 株価や資金価格などの財務データをリアルタイムで抽出する

28. 医薬品サイトから医薬品の詳細などの医療情報を抽出する

29. 様々なスポーツポータルからスポーツデータを取得する

30. 自動車データや自動車部品の情報を収集する

ヒューレット・パッカードの元執行役員、社長であるCarly Fiorina氏は、次のように「目標は、データを情報に、情報を洞察に変えることです」と述べています。World Wide Webを活用することは、世界最大かつ偏りのないデータベースを持つことを意味し、これまでにないビジネスチャンスを生み出します。今すぐ行動し、の激しい競争のなかで、業界トップに立ち続けています。

より多くのリソース：

2018-12-27

学術研究用のツールとリソース30個

知識

研究（英: research）とは、ある特定の物事について、人間の知識を集めて考察し、実験、観察、調査などを通して調べて、その物事についての事実を深く追求する一連の過程のことです。学術研究は専門性の高い分野における学問研究です。学術研究を行うのは簡単ではないので、ここでは研究を容易にするためツールを30個まとめました。

文献管理ツール

1. MarginNote

https://marginnote.com

MarginNoteは優れている機能を持つ読書や学習用ソフトウェアで、Mac、 iPad、 iPhoneに適用されます。MarginNoteはPDF/EPUBリーダーと多種類の学習ツールを統合しているので、利用者が多様な角度から知識を再編成したり、繋げ合わせたりして、記憶し、または身に着けることができます。学生、教育者、研究者、弁護士であろうと、勉強熱心の人であろうと、皆MarginNoteを利用して読書の時にマークアップ、メモを取ることができます。また、マインドマップ(Mindmap)とアウトラインツール(Outline)を利用してメモを組織し、Hashtagで水平の知識連結を創建し、Flashcardsを利用して記憶効率を上げることができます。

2. Zotero

https://www.zotero.org

Zoteroとはオープンソースで作られた文献管理用ソフトです。文献の管理とWordでの引用文献リストの作成が可能で、基本使用量無料でお金を払えばONLINEの保存容量が増やせます。Zoteroは文献情報やタグに基づいた非常に柔軟な検索機能を有しています。PDFファイルの本文から検索することも可能です。また、検索条件を保存しておくことで、動的に更新される文献コレクションとして利用することもできます。これを使ったことで、いちいち著者の名前、出版年、を記録し、引用スタイルに従ってポチポチ打っていく作業が皆無になったのです。卒論や研究論文を書く人には絶対にお勧めします。

3. RefWorks

https://www.refworks.com

RefWorks は、研究成果や電子リソースから収集した学術情報を蓄積・管理し、それらを共有化したり、情報発信するためのWebサービスです。多様な学術情報を取り込みリストを管理、各種参考文献リストの作成、学術情報・研究成果を共同研究者やゼミなどのグループで共有・公開などの機能があります。研究者、教職員、学生、図書館員などあらゆる利用者層のニーズに対応し、RSSなど最新のWeb情報発信技術とも連携しています。学生の情報リテラシー促進や、大学の研究情報基盤強化ツールのひとつとしてご活用いただけます。2002年のリリース以降、北米を中心に世界で1300以上の機関で利用されています。

4. EndNote

https://endnote.com

EndNoteは、論文執筆に必要な参考文献の収集、管理、参考文献リストの作成までをサポートする、文献管理・論文作成支援ソフトウェアです。学術文献データベースやPDFから、文献情報を取り込み可能で、論文作成の参考文献リスト作成もWordへドラッグ＆ドロップするだけです。同期機能で複数のPCやiPadでライブラリの閲覧・更新が可能です。最新のX9では特定の文献情報群から引用レポートの作成、特定のグループの文献情報を、他の EndNote X9 ユーザーと共有することが可能になりました。

5. Mendeley

https://www.mendeley.com

Mendeley は学術論文の管理とオンラインでの情報共有を目的とした、デスクトップアプリケーションおよびウェブアプリケーションの引用管理ソフトウェアです。PCにインストールして使う「デスクトップ版」と「Web版」を同期しながら使うため、どこからでも利用できます。iOS（iPad、iPhone）、Androidにも対応しています。PDFからの論文情報の取り込みに優れ、引用文献リストも希望のスタイルで簡単に出力できます。Privateグループを作り、メンバー間だけでPDFを共有することもできます。

6. Readcube

https://www.readcube.com

ReadCubeは、文献を管理、注釈付け、アクセスするツールです。ReadCubeでは、Google Scholarや、PubMed、Microsoft Academicを使って、論文検索やダウンロードができます。「ReadCube」で文献を読むと本文の右側に引用文献などが一覧されて、とても使い便利がよさそうです。「ReadCube]に登録した文献から推測して、関係あると推測した文献をインターネット上からサーチしてくれるという「Recommendation機能（論文紹介機能）」もあります。

7. Qiqqa

http://www.qiqqa.com

Qiqqaは別々のライブラリで、PDF文書を整理することが可能であり、またQiqqaアカウント経由でクラウドバックアップを提供する便利なフリーウェアです。難しい複数のPDF文書を管理するために見つけて管理し、あなたのPDFファイルをバックアップするためのワンストップ・ソリューションが必要な場合は、Qiqqaを試してみてください。

8. Docear

http://www.docear.org

Docear は、調査研究者向けのフリーの学術文献管理パッケージソフトです。JAVAアプリのため、Windows、Mac、Linux など幅広いプラットフォーム上で使用可能です。マインド・マップ作成モジュール（Freeplane）をベースに、研究文献の検索、整理および作成に必要な、デジタル図書館、リファレンス・マネージャ、ＰＤＦ等のファイル・マネージャ、ノート作成、そしてマインドマップ作成のすべての機能を、単独アプリケーションに統合したものです。フィルタ機能やコンバータ機能、WEBサービスの利用等により、各モジュール間のデータ互換性を確保するとともに、外部アプリ形式でのエクスポートをサポートするとされます。大きな特徴として、レファレンス情報から文献本体へのアクセス機能を備えること、PDF ファイルやリコメンデーションから自動的にメタデータを抽出できること、などが掲げられています。

9. Paperpile

https://paperpile.com

Paperpileはクラウド上で文献管理をしてくれるサービスです。Google ChromeにPaperpileの拡張機能を追加し、Googleアカウントでログインすると、論文の簡易情報（ジャーナル名、出版年、概要など）と論文PDFをGoogle Driveと同期して保存・管理してくれます。Paperpile はPubmed、Google Scholarなど、多くの学術情報検索エンジンにうまく組み込まれています。ワンクリックで、参考文献をコレクションに書き加えたり、Google DriveのストレージスペースからPDFをダウンロードできます。

10. JabRef

http://www.jabref.org

JabRefは文献データベースを管理するためのグラフィカルなアプリケーションです。JabRefは、特にBibTeXベース用に設計されていますが、他の多くの文献形式の読み込み・書き込みを行うことができます。JabRefはすべてのプラットフォーム上で動作し、Java 1.6以降が必要です。ツール上で文献を検索することができるので、検索後は取り込みたい文献をチェックしてOKボタンを押すだけで自動的に取り込まれます。また、ローカル上に保存したPDFとリンクすることもできるので、リンクをクリックすると文献が自動的に立ち上がります。

参考文献/索引リソース

1. Google Scholar

Google Scholarは、Web検索サイトのGoogleが無料で提供する学術論文検索用エンジンです。従来のGoogle 検索エンジンと同様に、任意のキーワードを入力して検索結果を関連度の高い順にリストアップします。検索結果は、引用された回数の多い順に並べられ、有用な論文を見つけることができます。出版社、専門家、オンラインリポジトリ、大学、その他のWebサイトから、記事、論文、書籍、要約、裁判所の意見など、さまざまな分野やソースを検索することができます。

2. arXiv

arXiv（アーカイヴ、archiveと同じ発音）は、物理学、数学、コンピューターサイエンス、量的生物学、計量ファイナンス、統計学、電子工学、システム科学、経済学などの分野の研究論文の電子ファイルを受け付けているリポジトリです。リポジトリに登録した論文は、プレプリント版として扱われるのが一般的で、同じ論文が学術誌で出版されれば、arXivのプレプリント版にDOIを追加することができます。数学や物理学の多くの分野では、ほとんどすべての科学論文がarXiv リポジトリにセルフアーカイブされています。

3. Springer

Springerは、世界最大規模の学術書籍出版社であり、世界で最も影響力のあるジャーナルを多数発行しています。科学、技術、医学、すなわちSTM関連の書籍、電子書籍、査読済みジャーナルを出版しています。毎年約2,000のジャーナル、7,000以上の新書（これにはSTM分野だけではなく、B2B分野のものも含まれる）を発刊しています。

4. Hyper Articles en Ligne

Hyper Articles en Ligne（HAL）は、フランス国立科学研究センターによって運営されている、すべての学術分野から学術文書を寄稿することができるオープンアーカイブです。HALへの登録は、研究者自身や図書館員等の代理の人が行うことになっています。科学的な内容である限り、研究者が自由に論文をアップロードできます。

5. MEDLINE

MEDLINEまたはMEDLARS Online (MEDical Literature Analysis and Retrieval System Online) は、医学を中心とする生命科学の文献情報を収集したオンラインデータベースです。米国国立医学図書館 ( NLM) が作成したコンピューター化医学文献データベース「MEDLINE」は、基礎生物医学研究および臨床科学を対象としています。主要な主題分野には、看護、歯科、獣医学、薬学、コメディカル、前臨床科学などが含まれます。MEDLINE では、生命科学の実践者、研究者、教育者に不可欠な、生物学、環境科学、海洋生物学、動植物学、および生物物理学や化学の側面を含む生命科学の分野も対象としています。

6. ResearchGate

ResearchGateは、科学者・研究者向けのソーシャル・ネットワーク・サービスで、研究者自らが論文やデータセットを登録・共有したり、他の研究論文について質問、または自分への質問について回答ができます。ResearchGate はFacebook、Twitter、LinkedInなどのサービスにある「プロフィールページ」「コメント」「グループ」「いいね!ボタン」「フォロー」などの機能を混合したサービスになっています。ResearchGateは、研究者SNSとして非常に注目されています。

7. CiteSeerx

所有者：ペンシルバニア州立大学

CiteSeerx（CiteSeer）は、コンピューターサイエンスと情報科学を中心とした科学文献のデジタルライブラリー兼検索エンジンです。CiteSeerはそれまでのオンライン検索の概念を覆す画期的なもので、世界で初めて自動で引用文献のメタデータ化とインデックス化を行い、論文同士の関連付けを行ったのです。CiteSeerは、「Autonomous citation indexing and literature browsing using citation context」というタイトルの米国特許第6289342号を保有しています。これによりユーザーは、著者名、キーワード、ジャーナル名から条件に関連する検索ができるようになりました。検索結果には、論文の本文だけでなく、参考文献内の情報も含まれます。さらにCiteSeerはPDFやHTMLファイルもクローリングの対象としており、後続のGoogle Scholarなどの学術オンラインツールの礎となりました。

8. Scopus

所有者：Elsevier

Scopusは査読済み文献の世界最大級の抄録・引用文献データベースであり、ジャーナル、書籍、会議録を収録しています。5,000以上の出版社による約22,000題を扱い、内20,000題は科学、技術、医療、社会科学（芸術や人文科学を含む）系定期刊行誌の査読済みで、Scopusにより、科学、技術、医学、社会科学、人文科学における世界の研究結果についての全体像を包括的に把握することができます。Scopusには研究を追跡、分析、可視化するスマートなツールがあります。

9. Emerald Group Publishing

Emeraldは、査読を経た最高品質の研究論文をお届けするグローバル出版社です。創立50年の歴史を誇るジャーナル出版社Emeraldは、高品質かつ査読済みの国際的なコンテンツを、研究者や学生、専門家の方に向けて発行しています。現在では、管理、ビジネス、教育、図書館研究、ヘルスケア、およびエンジニアリングの分野をカバーする、300誌以上のジャーナル、2,500冊以上の書籍、1,500以上の教育事例のポートフォリオを管理しています。

10. Web of Science

所有者：Clarivate Analytics（アメリカ）

Web of Scienceは、トムソン・ロイター（旧トムソン）の科学部門であるサイエンティフィック（Scientific)により提供されているオンラインの学術データベースです。自然科学、社会科学、人文科学の全分野における主要論文誌、総計約12,000誌の情報がカバーされています。

情報収集ツール：アンケート & Webデータ収集ツール

アンケート収集ツール

1. Google Forms

https://www.google.com/forms/about

GoogleフォームはGoogleドライブのサービスの一つとして提供されている、「フォーム」を簡単に作れるサービスです。「フォーム」とは、アンケート、とか、お問い合わせフォームみたいなやつで、「質問と回答入力欄がセットになった書式」の総称です。Googleフォームを使うと、パソコンやスマホで回答できるフォームを超簡単に作れます。自分でアンケートを作成するだけでなく、他のユーザーとも同時に共同で作成できます。また、デザイン性の高いさまざまな既製テーマから選択したり、独自のテーマを作成したりすることも可能です。しかも、Google フォーム内で結果を分析できる、Googleの無料サービスです。

2. Survey Monkey（サーベイモンキー）

https://www.surveymonkey.com

Survey Monkeyは、無料でWebアンケート作成、フォーム作成ができるネットリサーチアンケート調査のアンケートASPです。アンケートをたった数分で作成、配信し、アンケート集計結果をリアルタイムにグラフ付きで確認できます。顧客満足度、ネットプロモータースコアや従業員満足度調査など、重要な意思決定には大切なデータを効率的に収集できます。キャンペーン、イベント、研修または顧客との接触の後に、自動でアンケートを配信する設定も備えています。

3. Survey Gizmo

https://www.surveygizmo.com

SurveyGizmoは、40を超える質問のタイプ、カスタムテーマデザイン機能、自動分析ツールを備え、回答データをセキュアなクラウドでホストできる、先進的なクラウドアンケート作成プログラムです。幅広い調査要求を満たすようにカスタマイズできます。

4. PollDaddy

https://polldaddy.com

PollDaddyは、Webサイトにアンケートを埋め込むことや、メールで回答者を誘うことを可能にするオンラインアンケートソフトウェアです。無料版では、無制限の投票、19種類の質問、さらにYouTube、Flickr、Googleマップなどからの画像、ビデオ、コンテンツの追加をサポートしています。かなりの高機能で自由なカスタマイズが可能です。

5. LimeSurvey

https://www.limesurvey.org

LimeSurveyはアンケートの作成、公開、集計、解析の作業をＷｅｂブラウザ上で簡単に行うことができ、集計結果をリアルタイムに把握することができる高機能なWebアンケートシステムです。LimeSurveyには豊富な設問形式、デザインテンプレート機能、案内メール、催促メール機能、条件分岐機能等、Webアンケートで必要になる豊富な機能を搭載しています。

Webデータ収集ツール

1. Octoparse

https://www.octoparse.jp

Octoparseは、技術的な知識がなくても、最も使いやすいWebスクレイピングツールです。取得したコンテンツをダウンロードし、CSV、Excel、またはデータベースなどの構造化フォーマットとして保存できます。それに、クラウド型プラットフォームも提供するので、スケジュール設定が可能で、自動取得したデータはクラウドに保存され、どこでもアクセスできます。無料版も提供しています。

2. Parsehub

https://www.parsehub.com

Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートする優れたWebクローラーです。Web上の文書を読み込んで解析し、関連するデータを出力できる機械学習技術を備えています。ParsehubはWindows、Mac OS X、Linuxなどのデスクトップクライアントとして利用でき、ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。

3. Docparser

https://docparser.com

Docparserは、PDF文書を構造化された扱いやすいデータに変換します。これにより、PDFおよびスキャン文書から特定のデータフィールドを抽出し、PDFをテキスト、JSON、XML、CSVまたはExcelなどに変換できます。開始価格は19ドルで、100の解析クレジットが含まれています。

4. Scrapy

https://scrapy.org

Scrapyは、Webサイトのクロール、データマイニング、情報処理、アーカイブなどの幅広い有用なアプリケーションに使用できる構造化データを抽出するためのアプリケーションフレームワークです。Scrapyはもともと Webスクレイピング用に設計されていましたが、API( Amazon Associates Web Services のような)または汎用Webクローラーとしてデータを抽出するためにも使用できます。

5. Feedity

https://feedity.com

Feedityは、Webページから関連するコンテンツやデータを自動的に抽出して、WebページのRSSフィードを作成するためのシンプルなオンラインツールです。自動的に生成されたフィードに加えて、StartとEndブロックを追加するような細かいレベルを追加して、各投稿の開始と終了をサービスに通知することができます。プレミアムアカウントは、データ統合、RSSフィードマージなどの先進機能が利用することができます。

いかがでしょうか？研究用のデータリソースも探しているなら、この記事が役に立つかもしれません：知っておくべきの無料データリソース70個。この記事は政府、犯罪、健康、金融、ソーシャルメディア、ジャーナリズム、不動産などをカバーしています。