2019-03-13

Octoparse法人様向けプラン

3周年を迎える際に、Octoparseは法人様向けプランをリリースしました！法人様向けプランは複数ユーザーのアクセス、Webベースのデータ管理と検索、拡張性のあるクラウドリソースを特徴として、あらゆる規模のデータスクレイピングを達成できます。

Octoparse 法人様向けプランは、様々な大規模なデータ抽出プロジェクトを通じて、法人顧客にWebスクレイピングを簡単にご使用いただくことを目的としています。

効果的に協働する

今、チームワークすることができます！ Octoparse法人様向けプランには、管理者（Administrator）とエージェント（Agent）という2つの役割があります。

管理者は主にアカウント管理、データ管理を担当し、エージェントによって抽出されたすべてのデータにアクセスすることもできます。２名のデフォルトエージェントに加えて、必要に応じてエージェントを追加することができます。

さまざまな役割を分担することで、チームはアカウントリソース、スクレイピングタスク、クラウドデータをより効果的に管理し、協力することができます。

どこでもクラウド内のデータにアクセスできる

クライアントのことを忘れ、今、いつでもどこでもデータを管理することができます。

Octoparse Webコンソールを使うと、いつでもクラウド内のデータにアクセスできます。さらに重要なのは、どのブラウザからでもクラウド内のデータをダウンロードすることです。新しいデータが抽出されましたか？心配しないで、データが自動更新されます。

拡張できるように設計される

法人様向けプランは、拡張性を備えた強力なWebスクレイピング用に設計されています。

デフォルトでは、Octoparse法人様向けプランには2名のエージェントと40個の同時プロセスがあります。必要に応じて、エージェントとプロセスを追加することができます。

Webコンソールを備える

Webコンソールは、法人様向けプランのみ利用可能な新機能です。Webコンソールを使うと、アカウント管理者は簡単に

✔ エージェントの権限を管理する

✔ タスク/データの状況を監視する（クラウド内）

✔ 抽出したデータをどのブラウザからでも直接ダウンロードできる

クラウドリソースの管理

少ないリソースでより強力なスクレイピングが可能です。法人アカウントであれば、クラウドリソースを拡張・管理する可能です。以下の方法で、クラウドリソースの利用を最適化できます。

✔ エージェント間でのリソース共有を有効化/無効化する

✔ 各エージェントに利用可能なリソースを調整する

Octoparseクラウド抽出を使って動的データを抽出する方法について

いつでも力になる！

上記の限定機能に加えて、Octoparseの法人顧客は次のサービスを利用できる：

高級なトレーニング

4時間のパーソナライズされたトレーニングとウェビナーを通じて、法人様向けプランを最大限に活用する方法を学びます。

最優先のサポート

ご不明な点がある場合は、いつでもお気軽にお問い合わせください。弊社のカスタマーサポートが丁寧にお応えします。

専任のサクセスマネージャー

ご利用中のプロセスに、弊社の専任のカスタマーサクセスマネージャーがお客様と協力して、法人様向けプランのすべてが期待通りに機能することを確保します。

デモの予約、要求の打ち合わせ、Octoparseの詳細についてお問い合わせください。

2019-03-06

カスタマー・エクスペリエンスを向上させる6つの方法

ビッグデータ

カスタマー・エクスペリエンス（CX：顧客体験）は、今の競争の激しいビジネスの世界における新しい戦場です。Salesforceの調査結果が示すように、80％の顧客が、企業が提供するエクスペリエンスは製品やサービスと同じくらい重要であると答え、57％の顧客がカスタマー・エクスペリエンスの質の低さによりブランド乗り換えました。

このように、多数の企業でカスタマー・エクスペリエンスの重要性が認識されていますが、向上への取り組みはまだ不十分のようで、顧客の期待と企業の間に大きなギャップがあります。

顧客に高い経験価値を提供して満足してもらい、自社を末永く利用してもらうためには、どのような施策が効果的なのでしょうか？ここでカスタマー・エクスペリエンスを向上させる6つの実用的な方法を紹介したいです。　

1. オムニチャンネルから顧客の声に耳を傾ける

カスタマーサービスを提供する前に、オムニチャネルから顧客の声に耳を傾けることは、顧客のニーズを知るのに最も重要なことです。顧客の声をビジネスで活かす手法としては、従来からアンケート調査や対面のインタビュー調査が一般的でした。事前に設問やストーリーが用意されたうえで回答してもらうので、質問にバイアスがかかり、誘導的な回答が含まれる場合もあります。

しかし、SNSの普及によって、「ソーシャルリスニング」を行う企業が増えています。ソーシャルリスニングでは、顧客の本音を知ることができ、顧客同士での自然なやり取りの中でリアルタイムに捉えて分析し、すぐに行動に移すという、従来の方法と比べてスピード感がある効果的な手法がでてきました。

それに、ソーシャルメディアのスクレイピングツールを使うと、これまでよりも少ない苦労と時間で、企業はWebから顧客のフィードバックを収集するプロセスを自動化することができます。

例、ソーシャルメディアから情報を収集するためのOctoparse内蔵スクレイピングテンプレート。

2. タッチポイント（接点）ではなく、顧客の旅を通じてカスタマー・エクスペリエンスを測定する

カスタマー・エクスペリエンスの測定マトリックスに言及すると、多くの企業はいくつかのタッチポイント、つまり顧客がサービスや製品とやり取りするための個々の取引だけに集中します。もしあなたの会社も同じなら、あなたは重要な情報を見逃すかもしれません。Mckinseyの調査によると、顧客の旅に対するパフォーマンスは、タッチポイントに対するパフォーマンスよりも、顧客満足度や収益、チャーン、リピート購入などのビジネス上の成果との相関が非常に高いことが証明されています。

現在、企業はマルチタッチポイントおよびマルチチャネルの競争が激しい市場に直面しています。旅を中心とする測定マトリックスにより、企業はエンドツーエンドのプロセスに、カスタマー・エクスペリエンスを見ることができます。このようにして、顧客サービスにおいて改善を行う方法を理解することができ、顧客満足度と顧客維持率を向上させます。

3. 顧客を助けるためにEDM（メールマーケティング）を使用する

メールマーケティングは、長い間、多くの企業にとって強力な集客や顧客維持、リピーターの醸成などの戦略でした。統計によると、B2Bマーケターの59％はEメールが収益に最も効果的なチャネルであると答えています。ただし、メールマーケティングも、最も簡単に悪用されて巧妙なツールです。顧客の目的と目標を達成するのを手伝うときだけ、自分のを達成することができます。

特定の顧客グループに適したメッセージを作成するために、顧客セグメンテーション技法を適用し、受信者が個人として扱われるようにパーソナライズ技法を使う必要があります。HubSpotは異なる会社からの素晴らしいメールマーケティングキャンペーンの例を19通集め、参考になるかもしれません。

4. 顧客に豊富なセルフサービスリソースを構築する

簡単に言えば、顧客やユーザーが自分で問題を解決するのに役立つ可能性のあるツールや情報は、セルフサービスツールと見なされます。一般的に言って、セルフサービスリソースには次のものがあります。

オンライン知識ベース;

FAQ（よくある質問）;

チュートリアルとガイド（テキスト、インフォグラフィック、またはビデオ）;

オンラインコミュニティフォーラム;

自動チャットボット;

…

ほとんどの場合、顧客は待つことに時間をかけたくなく、自分で問題を解決することを好みます。ですから、豊富で簡単にアクセスできるセルフサービスリソースを開発する必要があります。

5. 顧客の感情/センチメントに注意を払う

アルゴリズムの改善によって、感情分析ツールを使用すると、顧客の会話に含む感情を正確に理解することができます。効果的なセンチメント分析することで、ソーシャルメディアデータを監視し、製品やサービスに対する顧客からのフィードバックをリアルタイムで判断できます。ですから、ソーシャルメディアのメッセージを調整し、それに応じてオンラインマーケティングキャンペーンを最適化することができます。さらに重要なのは、ソーシャルメディアの危機による被害を防止または軽減することです。さまざまな業界やアプリケーションに焦点を当てて、すでに多くの成熟した感情分析ツールがあります。

6. 自動化ツールを使ってカスタマー・エクスペリエンス管理を促進する

情報技術の発展のおかげで、今のデジタル化では、自動化は避けられない傾向です。このような急速に変化するビジネスの世界では、すべてを手動で解決することはできなくなり、自動化ソフトウェアが今や重要な役割を果たすので、短時間で少ない労力で同じ結果を得ることができます。

上記の5つの手段のためのソフトウェアとは別に、カスタマー・エクスペリエンス管理のソリューションとして、いくつかのソフトウェアもあります。カスタマー・エクスペリエンス管理（CEM）ソフトウェアは、顧客のリスニングと顧客からのフィードバックの分析を統合して単一の完全な顧客ビューを提供し、収益の増加と顧客の満足度の向上につながります。

[カスタマー・エクスペリエンス管理ソフトウェア | Capterra]

まとめ

Mckinseyの分析によると、有効的なカスタマー・エクスペリエンスの向上により、5〜10％の収益向上ができ、2〜3年以内に15〜25％のコスト削減が可能になります。カスタマー・エクスペリエンスの向上は決して難しい手法ではありません。簡単に実践でき、顧客のニーズを知れる貴重な機会になるので、ぜひカスタマー・エクスペリエンスをビジネスに役立ててください。

2019-01-28

Webスクレイピングでビジネスを成長させる方法30個

Webスクレイピング

データが急速に成長していることは皆が知っています。Data Age 2025と題されたIDCの調査によると、2025年までに世界規模のデータは163ゼタバイト（ZB）に増えると予測されています。それに、IBMによれば、1日に2.5百京バイトのデータが作られ、そして世界中のデータの90％が過去2年間で作成されました。このようなデータの大規模な爆発している時代で、ビジネスまたは仕事にデータがどのように使えるかについて考えたことがありますか？

ビッグデータの利用は複雑に思えるが、そうではないかもしれません。Webスクレイピング（別名：Webクローリング、Webデータ抽出など）は、ソーシャルメディア、ニュースポータル、政府の報告書、フォーラムなど、大量のデータをWebから取得して、Excel、CSV、データベースなどの構造データセットに変換する手法です。取得したデータはさまざまな目的のために分析または処理されます。Webスクレイピングはもう新しいことではありませんが、毎日私たちの周りでWebスクレイピング活動が行われていることに気付いている人は多くありません。この記事では、実際の企業がWebスクレイピングを使って何をしているのかを共有したいと思います。

1. コンテンツ集約

AmebaやQittaなどのUGCプラットフォームからあらゆるトピックの投稿を便利に収集できます。ざまざまなの視点からコンテンツの範囲を広げます。

より多くのリソース：

Webスクレイピングでコンテンツマーケティングを促進する方法

2. 競合情報監視

競合他社が行っていること、例えばそのイベント、製品開発、価格戦略、およびマーケティングキャンペーンを常に把握できます。競合他社が何をしようとしているかを知っていることは、自社の戦略を立てる上で重要です。

より多くのリソース：

競合分析 [wiki]

3. 感情分析

Eコマースやその他の公開サイトからレビュー（評価）を抽出することで、顧客の感情やフィードバックを理解します。顧客が考えていることが何かがわかれば、マーケティング施策を考える上で大きな助けになるだろう。

より多くのリソース：

感情分析 [wiki]

4. リードジェネレーション

リードリードジェネレーション（Lead Generation）とは、見込み客（リード）の獲得のことです。見込み客のいるWebサイトがあれば、彼らの電話番号、メール、住所などの必要な情報を取得できます。Webスクレイピングは、数分以内に何千もの見込み客の情報を収集するのに役立ちます。

より多くのリソース：

リードジェネレーション [wiki]

5. 不動産物件を集める

不動産のWebサイト（例えば：SUUMO、LIFULL HOME'Sなど）から物件の詳細と代理店の連絡先の詳細を取得できます。

より多くのリソース：

Octoparseを使って不動産のデータを収集する

6. 市場調査

オンラインで見つかったデータを構造化データに変換し、BIツールを使用してそれらを分析します。カスタム分析は、あらゆる企業にとって重要な公共の需要や行動を効果的に反映することができます。

7. 小売業者／製造業者／Ｅコマースサイト（例えば、Amazon、eBay、Alibabaなど）から製品情報（価格、画像、評価、レビューなど）を収集することによって製品カタログを作成する

8. 様々なソーシャルメディアWebサイト（Twitter、Facebookなど）からデータを収集して、市場の動向を把握する

9. YouTubeやニコニコ動画などのビデオホスティングサイトからビデオの情報を取得する

10. 機械学習

Webから必要なデータをクロールし、それをボットトレーニングするためのデータポイント、画像、またはファイルとします。

11. 検索エンジン最適化

検索エンジン最適化（SEO)監視のために、任意のWebサイトからメタデータ（例：title / description / etc）を収集するか、インターネット検索エンジンの結果をクロールします。

12. 価格監視

Webスクレイピングを使用して、競合他社の商品をリアルタイムで監視します。競合他社の価格戦略を了解し、収益を上げます。

13. 求人サイト（例えば、Indeed、リクナビNEXTなど）の求人情報を収集して求人掲示板を作成する

より多くのリソース：

Octopasreを使って求人情報を整理する

14. コンテンツキュレーション

フォーラムやコミュニティをスクレイピングして、投稿や著者などのデータを抽出します。

15. 政府機関のサイトから規制情報または統計情報を収集する

16. ホテルのデータを抽出し、価格やレビュー（評価）などのデータを比較して競争力を維持するか、このデータを集計して独自のプラットフォームを構築する

より多くのリソース：

Octoparseを使ってホテルのデータを収集する

17. 様々なニュースポータルからのニュースデータをクロールして、ニュース集約サイトを構築する

18. Amazonで最も売れている商品を把握する

より多くのリソース：

Octoparseで商品情報をスクレイピングする

19. あらゆる種類の製品およびサービス用に独自の価格比較サイトを構築する

20. 保険会社のWebサイトから保険の補償範囲を取得する

21. ブランドモニタリング/オンライン評判

ソーシャルメディア、フォーラムなどの様々なチャネルを介して、人々が自社の製品やサービスについての評判を知りたい場合は、自分の興味に関連するデータを取得し、意思決定をより適切にするためのセンチメント分析を実装する自動メカニズムを設定する必要があります。

22. 偽のレビューを検出する

より正確な分析のために、Webクローリングを使用して偽のレビューを除外することができます。

23. 広告実施中のターゲットユーザー

正確な広告ターゲティングのために顧客情報をスクレイピングし、顧客をよりよく理解します。性別、年齢層、購買習慣、趣味などのコメントやレビューを分析して、その特徴に基づいてターゲットを絞った広告を作成することができます。

24. 様々な病院/診療所のサイトから医師の情報を取得する

25. 法的目的のための参考例として過去の判決報告をスクレイピングする

26. レストランや飲食店のメニューをスクレイピングする

27. 株価や資金価格などの財務データをリアルタイムで抽出する

28. 医薬品サイトから医薬品の詳細などの医療情報を抽出する

29. 様々なスポーツポータルからスポーツデータを取得する

30. 自動車データや自動車部品の情報を収集する

ヒューレット・パッカードの元執行役員、社長であるCarly Fiorina氏は、次のように「目標は、データを情報に、情報を洞察に変えることです」と述べています。World Wide Webを活用することは、世界最大かつ偏りのないデータベースを持つことを意味し、これまでにないビジネスチャンスを生み出します。今すぐ行動し、の激しい競争のなかで、業界トップに立ち続けています。

より多くのリソース：

2018-12-27

学術研究用のツールとリソース30個

知識

研究（英: research）とは、ある特定の物事について、人間の知識を集めて考察し、実験、観察、調査などを通して調べて、その物事についての事実を深く追求する一連の過程のことです。学術研究は専門性の高い分野における学問研究です。学術研究を行うのは簡単ではないので、ここでは研究を容易にするためツールを30個まとめました。

文献管理ツール

1. MarginNote

https://marginnote.com

MarginNoteは優れている機能を持つ読書や学習用ソフトウェアで、Mac、 iPad、 iPhoneに適用されます。MarginNoteはPDF/EPUBリーダーと多種類の学習ツールを統合しているので、利用者が多様な角度から知識を再編成したり、繋げ合わせたりして、記憶し、または身に着けることができます。学生、教育者、研究者、弁護士であろうと、勉強熱心の人であろうと、皆MarginNoteを利用して読書の時にマークアップ、メモを取ることができます。また、マインドマップ(Mindmap)とアウトラインツール(Outline)を利用してメモを組織し、Hashtagで水平の知識連結を創建し、Flashcardsを利用して記憶効率を上げることができます。

2. Zotero

https://www.zotero.org

Zoteroとはオープンソースで作られた文献管理用ソフトです。文献の管理とWordでの引用文献リストの作成が可能で、基本使用量無料でお金を払えばONLINEの保存容量が増やせます。Zoteroは文献情報やタグに基づいた非常に柔軟な検索機能を有しています。PDFファイルの本文から検索することも可能です。また、検索条件を保存しておくことで、動的に更新される文献コレクションとして利用することもできます。これを使ったことで、いちいち著者の名前、出版年、を記録し、引用スタイルに従ってポチポチ打っていく作業が皆無になったのです。卒論や研究論文を書く人には絶対にお勧めします。

3. RefWorks

https://www.refworks.com

RefWorks は、研究成果や電子リソースから収集した学術情報を蓄積・管理し、それらを共有化したり、情報発信するためのWebサービスです。多様な学術情報を取り込みリストを管理、各種参考文献リストの作成、学術情報・研究成果を共同研究者やゼミなどのグループで共有・公開などの機能があります。研究者、教職員、学生、図書館員などあらゆる利用者層のニーズに対応し、RSSなど最新のWeb情報発信技術とも連携しています。学生の情報リテラシー促進や、大学の研究情報基盤強化ツールのひとつとしてご活用いただけます。2002年のリリース以降、北米を中心に世界で1300以上の機関で利用されています。

4. EndNote

https://endnote.com

EndNoteは、論文執筆に必要な参考文献の収集、管理、参考文献リストの作成までをサポートする、文献管理・論文作成支援ソフトウェアです。学術文献データベースやPDFから、文献情報を取り込み可能で、論文作成の参考文献リスト作成もWordへドラッグ＆ドロップするだけです。同期機能で複数のPCやiPadでライブラリの閲覧・更新が可能です。最新のX9では特定の文献情報群から引用レポートの作成、特定のグループの文献情報を、他の EndNote X9 ユーザーと共有することが可能になりました。

5. Mendeley

https://www.mendeley.com

Mendeley は学術論文の管理とオンラインでの情報共有を目的とした、デスクトップアプリケーションおよびウェブアプリケーションの引用管理ソフトウェアです。PCにインストールして使う「デスクトップ版」と「Web版」を同期しながら使うため、どこからでも利用できます。iOS（iPad、iPhone）、Androidにも対応しています。PDFからの論文情報の取り込みに優れ、引用文献リストも希望のスタイルで簡単に出力できます。Privateグループを作り、メンバー間だけでPDFを共有することもできます。

6. Readcube

https://www.readcube.com

ReadCubeは、文献を管理、注釈付け、アクセスするツールです。ReadCubeでは、Google Scholarや、PubMed、Microsoft Academicを使って、論文検索やダウンロードができます。「ReadCube」で文献を読むと本文の右側に引用文献などが一覧されて、とても使い便利がよさそうです。「ReadCube]に登録した文献から推測して、関係あると推測した文献をインターネット上からサーチしてくれるという「Recommendation機能（論文紹介機能）」もあります。

7. Qiqqa

http://www.qiqqa.com

Qiqqaは別々のライブラリで、PDF文書を整理することが可能であり、またQiqqaアカウント経由でクラウドバックアップを提供する便利なフリーウェアです。難しい複数のPDF文書を管理するために見つけて管理し、あなたのPDFファイルをバックアップするためのワンストップ・ソリューションが必要な場合は、Qiqqaを試してみてください。

8. Docear

http://www.docear.org

Docear は、調査研究者向けのフリーの学術文献管理パッケージソフトです。JAVAアプリのため、Windows、Mac、Linux など幅広いプラットフォーム上で使用可能です。マインド・マップ作成モジュール（Freeplane）をベースに、研究文献の検索、整理および作成に必要な、デジタル図書館、リファレンス・マネージャ、ＰＤＦ等のファイル・マネージャ、ノート作成、そしてマインドマップ作成のすべての機能を、単独アプリケーションに統合したものです。フィルタ機能やコンバータ機能、WEBサービスの利用等により、各モジュール間のデータ互換性を確保するとともに、外部アプリ形式でのエクスポートをサポートするとされます。大きな特徴として、レファレンス情報から文献本体へのアクセス機能を備えること、PDF ファイルやリコメンデーションから自動的にメタデータを抽出できること、などが掲げられています。

9. Paperpile

https://paperpile.com

Paperpileはクラウド上で文献管理をしてくれるサービスです。Google ChromeにPaperpileの拡張機能を追加し、Googleアカウントでログインすると、論文の簡易情報（ジャーナル名、出版年、概要など）と論文PDFをGoogle Driveと同期して保存・管理してくれます。Paperpile はPubmed、Google Scholarなど、多くの学術情報検索エンジンにうまく組み込まれています。ワンクリックで、参考文献をコレクションに書き加えたり、Google DriveのストレージスペースからPDFをダウンロードできます。

10. JabRef

http://www.jabref.org

JabRefは文献データベースを管理するためのグラフィカルなアプリケーションです。JabRefは、特にBibTeXベース用に設計されていますが、他の多くの文献形式の読み込み・書き込みを行うことができます。JabRefはすべてのプラットフォーム上で動作し、Java 1.6以降が必要です。ツール上で文献を検索することができるので、検索後は取り込みたい文献をチェックしてOKボタンを押すだけで自動的に取り込まれます。また、ローカル上に保存したPDFとリンクすることもできるので、リンクをクリックすると文献が自動的に立ち上がります。

参考文献/索引リソース

1. Google Scholar

Google Scholarは、Web検索サイトのGoogleが無料で提供する学術論文検索用エンジンです。従来のGoogle 検索エンジンと同様に、任意のキーワードを入力して検索結果を関連度の高い順にリストアップします。検索結果は、引用された回数の多い順に並べられ、有用な論文を見つけることができます。出版社、専門家、オンラインリポジトリ、大学、その他のWebサイトから、記事、論文、書籍、要約、裁判所の意見など、さまざまな分野やソースを検索することができます。

2. arXiv

arXiv（アーカイヴ、archiveと同じ発音）は、物理学、数学、コンピューターサイエンス、量的生物学、計量ファイナンス、統計学、電子工学、システム科学、経済学などの分野の研究論文の電子ファイルを受け付けているリポジトリです。リポジトリに登録した論文は、プレプリント版として扱われるのが一般的で、同じ論文が学術誌で出版されれば、arXivのプレプリント版にDOIを追加することができます。数学や物理学の多くの分野では、ほとんどすべての科学論文がarXiv リポジトリにセルフアーカイブされています。

3. Springer

Springerは、世界最大規模の学術書籍出版社であり、世界で最も影響力のあるジャーナルを多数発行しています。科学、技術、医学、すなわちSTM関連の書籍、電子書籍、査読済みジャーナルを出版しています。毎年約2,000のジャーナル、7,000以上の新書（これにはSTM分野だけではなく、B2B分野のものも含まれる）を発刊しています。

4. Hyper Articles en Ligne

Hyper Articles en Ligne（HAL）は、フランス国立科学研究センターによって運営されている、すべての学術分野から学術文書を寄稿することができるオープンアーカイブです。HALへの登録は、研究者自身や図書館員等の代理の人が行うことになっています。科学的な内容である限り、研究者が自由に論文をアップロードできます。

5. MEDLINE

MEDLINEまたはMEDLARS Online (MEDical Literature Analysis and Retrieval System Online) は、医学を中心とする生命科学の文献情報を収集したオンラインデータベースです。米国国立医学図書館 ( NLM) が作成したコンピューター化医学文献データベース「MEDLINE」は、基礎生物医学研究および臨床科学を対象としています。主要な主題分野には、看護、歯科、獣医学、薬学、コメディカル、前臨床科学などが含まれます。MEDLINE では、生命科学の実践者、研究者、教育者に不可欠な、生物学、環境科学、海洋生物学、動植物学、および生物物理学や化学の側面を含む生命科学の分野も対象としています。

6. ResearchGate

ResearchGateは、科学者・研究者向けのソーシャル・ネットワーク・サービスで、研究者自らが論文やデータセットを登録・共有したり、他の研究論文について質問、または自分への質問について回答ができます。ResearchGate はFacebook、Twitter、LinkedInなどのサービスにある「プロフィールページ」「コメント」「グループ」「いいね!ボタン」「フォロー」などの機能を混合したサービスになっています。ResearchGateは、研究者SNSとして非常に注目されています。

7. CiteSeerx

所有者：ペンシルバニア州立大学

CiteSeerx（CiteSeer）は、コンピューターサイエンスと情報科学を中心とした科学文献のデジタルライブラリー兼検索エンジンです。CiteSeerはそれまでのオンライン検索の概念を覆す画期的なもので、世界で初めて自動で引用文献のメタデータ化とインデックス化を行い、論文同士の関連付けを行ったのです。CiteSeerは、「Autonomous citation indexing and literature browsing using citation context」というタイトルの米国特許第6289342号を保有しています。これによりユーザーは、著者名、キーワード、ジャーナル名から条件に関連する検索ができるようになりました。検索結果には、論文の本文だけでなく、参考文献内の情報も含まれます。さらにCiteSeerはPDFやHTMLファイルもクローリングの対象としており、後続のGoogle Scholarなどの学術オンラインツールの礎となりました。

8. Scopus

所有者：Elsevier

Scopusは査読済み文献の世界最大級の抄録・引用文献データベースであり、ジャーナル、書籍、会議録を収録しています。5,000以上の出版社による約22,000題を扱い、内20,000題は科学、技術、医療、社会科学（芸術や人文科学を含む）系定期刊行誌の査読済みで、Scopusにより、科学、技術、医学、社会科学、人文科学における世界の研究結果についての全体像を包括的に把握することができます。Scopusには研究を追跡、分析、可視化するスマートなツールがあります。

9. Emerald Group Publishing

Emeraldは、査読を経た最高品質の研究論文をお届けするグローバル出版社です。創立50年の歴史を誇るジャーナル出版社Emeraldは、高品質かつ査読済みの国際的なコンテンツを、研究者や学生、専門家の方に向けて発行しています。現在では、管理、ビジネス、教育、図書館研究、ヘルスケア、およびエンジニアリングの分野をカバーする、300誌以上のジャーナル、2,500冊以上の書籍、1,500以上の教育事例のポートフォリオを管理しています。

10. Web of Science

所有者：Clarivate Analytics（アメリカ）

Web of Scienceは、トムソン・ロイター（旧トムソン）の科学部門であるサイエンティフィック（Scientific)により提供されているオンラインの学術データベースです。自然科学、社会科学、人文科学の全分野における主要論文誌、総計約12,000誌の情報がカバーされています。

情報収集ツール：アンケート & Webデータ収集ツール

アンケート収集ツール

1. Google Forms

https://www.google.com/forms/about

GoogleフォームはGoogleドライブのサービスの一つとして提供されている、「フォーム」を簡単に作れるサービスです。「フォーム」とは、アンケート、とか、お問い合わせフォームみたいなやつで、「質問と回答入力欄がセットになった書式」の総称です。Googleフォームを使うと、パソコンやスマホで回答できるフォームを超簡単に作れます。自分でアンケートを作成するだけでなく、他のユーザーとも同時に共同で作成できます。また、デザイン性の高いさまざまな既製テーマから選択したり、独自のテーマを作成したりすることも可能です。しかも、Google フォーム内で結果を分析できる、Googleの無料サービスです。

2. Survey Monkey（サーベイモンキー）

https://www.surveymonkey.com

Survey Monkeyは、無料でWebアンケート作成、フォーム作成ができるネットリサーチアンケート調査のアンケートASPです。アンケートをたった数分で作成、配信し、アンケート集計結果をリアルタイムにグラフ付きで確認できます。顧客満足度、ネットプロモータースコアや従業員満足度調査など、重要な意思決定には大切なデータを効率的に収集できます。キャンペーン、イベント、研修または顧客との接触の後に、自動でアンケートを配信する設定も備えています。

3. Survey Gizmo

https://www.surveygizmo.com

SurveyGizmoは、40を超える質問のタイプ、カスタムテーマデザイン機能、自動分析ツールを備え、回答データをセキュアなクラウドでホストできる、先進的なクラウドアンケート作成プログラムです。幅広い調査要求を満たすようにカスタマイズできます。

4. PollDaddy

https://polldaddy.com

PollDaddyは、Webサイトにアンケートを埋め込むことや、メールで回答者を誘うことを可能にするオンラインアンケートソフトウェアです。無料版では、無制限の投票、19種類の質問、さらにYouTube、Flickr、Googleマップなどからの画像、ビデオ、コンテンツの追加をサポートしています。かなりの高機能で自由なカスタマイズが可能です。

5. LimeSurvey

https://www.limesurvey.org

LimeSurveyはアンケートの作成、公開、集計、解析の作業をＷｅｂブラウザ上で簡単に行うことができ、集計結果をリアルタイムに把握することができる高機能なWebアンケートシステムです。LimeSurveyには豊富な設問形式、デザインテンプレート機能、案内メール、催促メール機能、条件分岐機能等、Webアンケートで必要になる豊富な機能を搭載しています。

Webデータ収集ツール

1. Octoparse

https://www.octoparse.jp

Octoparseは、技術的な知識がなくても、最も使いやすいWebスクレイピングツールです。取得したコンテンツをダウンロードし、CSV、Excel、またはデータベースなどの構造化フォーマットとして保存できます。それに、クラウド型プラットフォームも提供するので、スケジュール設定が可能で、自動取得したデータはクラウドに保存され、どこでもアクセスできます。無料版も提供しています。

2. Parsehub

https://www.parsehub.com

Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートする優れたWebクローラーです。Web上の文書を読み込んで解析し、関連するデータを出力できる機械学習技術を備えています。ParsehubはWindows、Mac OS X、Linuxなどのデスクトップクライアントとして利用でき、ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。

3. Docparser

https://docparser.com

Docparserは、PDF文書を構造化された扱いやすいデータに変換します。これにより、PDFおよびスキャン文書から特定のデータフィールドを抽出し、PDFをテキスト、JSON、XML、CSVまたはExcelなどに変換できます。開始価格は19ドルで、100の解析クレジットが含まれています。

4. Scrapy

https://scrapy.org

Scrapyは、Webサイトのクロール、データマイニング、情報処理、アーカイブなどの幅広い有用なアプリケーションに使用できる構造化データを抽出するためのアプリケーションフレームワークです。Scrapyはもともと Webスクレイピング用に設計されていましたが、API( Amazon Associates Web Services のような)または汎用Webクローラーとしてデータを抽出するためにも使用できます。

5. Feedity

https://feedity.com

Feedityは、Webページから関連するコンテンツやデータを自動的に抽出して、WebページのRSSフィードを作成するためのシンプルなオンラインツールです。自動的に生成されたフィードに加えて、StartとEndブロックを追加するような細かいレベルを追加して、各投稿の開始と終了をサービスに通知することができます。プレミアムアカウントは、データ統合、RSSフィードマージなどの先進機能が利用することができます。

いかがでしょうか？研究用のデータリソースも探しているなら、この記事が役に立つかもしれません：知っておくべきの無料データリソース70個。この記事は政府、犯罪、健康、金融、ソーシャルメディア、ジャーナリズム、不動産などをカバーしています。

2018-12-19

データ分析用のビッグデータツール30選！

ビッグデータ

データ分析とは、「数あるデータから有益な情報を探し出し、改善に役立てる取り組みのこと」を指します。データ分析には、ビッグデータツールがたくさんあります。この記事では、オープンソースデータツール、データ可視化ツール、センチメントツール、データ抽出ツール、データベースの分野で、データ分析用のツール30個ををまとめました。

オープンソースデータツール

1. Knime

KNIME はワークフロー型データ分析プラットフォームを提供するオープンソースソフトウェアです。ノードと呼ばれる機能のかたまりを線でつないで、さまざまな処理を実現します。

1000を超えるノード、数多くのワークフローサンプル、包括的な統合ツール、様々なアルゴリズムが利用でき、データに隠されている可能性を発見したり、新たな知見を得たり、未来を予測するのに役立ちます。

2. OpenRefine

OpenRefine（旧称：Google Refine、さらに以前はFreebase Gridworks）は、スタンドアローンのオープンソースのデスクトップアプリケーションで、データのクリーンナップ、他の形式への変換、データラングリングと呼ばれる処理を行うことができます。見た目はスプレッドシートアプリケーションに似ているが（スプレッドシートファイル形式も処理できる）、よりデータベースに近い動作をします。

3. R言語

R言語はオープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。システムを開発をする他のプログラムミング言語とは位置付けが異なり、統計解析機能が付いていて、解析処理やデータのグラフ化や図解化の機能が豊富で、さらに柔軟という特徴を持っています。R言語は、統計家が環境の変化（大学などの教育機関から営利企業の研究所への転職など）による影響を受けにくい言語のため、実務分野での利用も拡大しています。

4. Orange

Orangeはあまり経験のないデータマイニングの初心者から、スクリプトを書いてデータ処理のアルゴリズムを実装するプログラマーまで、多様なインターフェースを持つユニークなツールとなっています。ビジュアルプログラミング言語として、事前に定義されたウィジェットまたは利用者自身が設計したウィジェットをリンクしてワークフローを作成するインターフェースを介して実装されます。データ分析の作業にあたっては、結果を表現するためのビジュアライゼーションの機能が重要になってきます。Orangeでは普通の棒、折れ線グラフなどの他に、ツリー図、産婦図、ネットワーク図からヒートマップまで、多様な出力様式に対応できます。

5. RapidMiner

RapidMiner(ラピッドマイナー)とは、オープンソースのデータ分析プラットフォームです。機械学習、データマイニング、テキストマイニング、特徴選択、予測分析、経営分析などを行います。プログラミングなしでデータ分析を行える点が特徴です。また、オープンソースの統計分析ソフトRやプログラミング言語 Pythonと連携でき、より高度な分析も可能です。データマイニングの基本処理は、「データ準備」→「データ分析」→「結果評価」という流れです。RapidMinerは、この3つの処理にかかる作業コストを大幅に軽減できます。

RapidMinerは、散布図やヒストグラム、箱ひげ図、ヒートマップ等の可視化機能を豊富に備えています。分析結果を可視化することで、データから集計を超える新たな知見を得られます。

6. Pentaho

Pentahoは、多種多様なビッグデータを統合し、分析を行うためのデータ統合・分析基盤です。データを抽出・準備・ブレンドする「データ統合基盤」、統合したデータを分析・可視化する「データ分析基盤」の2つの基盤により、データ統合から分析までの一貫した環境を提供します。PentahoはBIスイートであり、レポーティング、インタラクティブ（対話型）分析、ダッシュボード、データ統合/ETL（Extract/Transform/Load）、データ・マイニング、その他、BIプラットフォームとBIに必要なすべての機能が用意されています。

7. Talend

Talend は、単一のオープンプラットフォームでクラウドとオンプレミスの環境にわたってデータを統合します。より多くの適切なデータを、より迅速にビジネスで活用できます。複数のシステムを対象としたデータの統合・連携を行うだけではなく、単一データベースシステムを対象としたアプリケーション開発基盤としても威力を発揮するデータ統合連携基盤であり、Talendで生成した処理は、すべてJavaコードとしてエクスポートすることが可能です。

8. Weka

Wekaはデータ解析と予測モデリングのための視覚化ツールとアルゴリズムの集合体です。データプリプロセッシング、クラスタリング、統計分類、回帰分析、視覚化、特徴選択といった標準的データマイニングタスクをサポートしています。完全にJavaで実装されているので、ほとんどのプラットフォームで動作し、GUIも備え使いやすいです。Wekaに実装された機械学習やクラスタリングのアルゴリズムは他のツールとAPIやCLIを通して利用可能であるため、多くのツールでライブラリとして利用されています。

9. NodeXL

NodeXL は Excel で行うことができるオープンソースのネットワーク分析テンプレート。Excel ワークシートにエッジリストを入力したりコピペすることで簡単にネットワーク図を描くことができます。また、ノードの形状には画像を選択することができ、画像ベースのネットワーク図を描くことも出来ます。グラフのメトリックを簡単に計算するとネットワークの可視化を迅速に作成することができ、使い慣れたスプレッドシートに、ソーシャルネットワーク分析と可視化機能が追加されています。

10. Gephi

GephiはNetBeansを基にしてJavaで組まれた、ネットワーク解析及び可視化用オープンソースソフトウェアパッケージです。Gephi は、たとえて言えば、データを対象に扱う Photoshop のようなものです。ユーザーは描画されたグラフと対話し、構造や形状、色などを操作しながら、隠された属性を引き出します。Gephi が目標としているのは、データ解析の支援を通じて、仮説を立てたり、パターンを直感的に把握したり、データソーシング時に構造的な特異点や欠陥を分離したりできるようにすることです。

データ可視化ツール

11. Datawrapper

Datawrapperというドイツ生まれのオンラインサービスは、美しいチャートを作る「データビジュアライゼーション」を簡単に実現してくれます。基本的にはエクセルなどのデータを用意して、貼り付けて、好きなチャートの形式を選ぶだけで、シンプルながらきれいな棒グラフ、折れ線グラフ、円グラフ、ドーナツグラフなどの生成ができます。グラフは埋め込みコードが用意されていて、簡単に他サイトで埋め込めます。作ったグラフやチャートなどを記事に付けられ、スクリーン上でデータを分かりやすくかつ視覚的に楽しく見せます。

12. BI360

親和性の高いSolver社BI360はExcelをベースにしたレポーティング、予算管理、経営ダッシュボードと倉庫管理データを中規模企業向けに提供します。簡単な操作によって任意の集計軸でデータを参照することが可能となります。BI360のもつ革新性はお客様にとって大変魅力的です。例えば、他のエンタープライズ向けツールが提供する標準レポートや予算管理の機能に加えて、BI360はさらに多機能かつ、ビジネスの本当の姿を掘り下げるための共有機能や分析機能を持ち合わせています。こういった先進的なソリューションは、これを導入する企業にとってデータの本当の意味の理解、よりよい経営判断のための助けになることでしょう。

13. Qlik

Qlik がデータ管理からカスタムアプリのビルドまで、必要なソリューションすべてを提供します。BI (ビジネスインテリジェンス) ユーザーを対象とした世界最大級の調査において Qlik がビジュアル分析などの部門で No. 1 を獲得しています。Qlikは、世界中の企業がエンドツーエンドのソリューションを活用してデータから価値を引き出し、より迅速に行動して、よりスマートに働き、大きくリードできるように支援しています。

14. Tableau Public

Tableauは、タブローソフトウェア社が提供する大量のデータを直感的に可視化・分析できるツールです。Tableau Publicでは、世界中のTableauユーザがオープンデータを使用して作成した様々なレポートを無料でブラウザで閲覧することができます。Tableau Publicで可視化できるデータソースはテキストデータ、ExcelファイルOData、Web Data Connector、統計ファイルになります。有料版のTableau desktopでは、使えるデータソースが大幅に拡大されますが、残念ながらMySQLはTableau Publicではデータソースとしては使えません。

15. Google Fusion Tables

Fusion TableとはGoogle Drive上で使えるRDBアプリケーションで、本来はGoogle Mapとの連携や複数のユーザー間での共有（マージ）に強みがあります。データに保存されているデータを活用して、ウェブ上の他のデータを組み合わせたり、共同編集したり、視覚的に表現したり、共有したりできます。

16. Infogram

Infogramはあらかじめ用意されたチャート、グラフ、地図を選び、可視化したいデータを入力することにより、簡単にインフォグラフィックスを作成できるサービスです。作成したインフォグラフィックは、PNG・GIF・PDF形式でダウンロードでき、そのまま配布したりプレゼン資料に挿入したりできます。共有 URLを発行できるため、クラウド上での共有も可能です。

センチメントツール

17. Opentext

OpenText Sentiment Analysisは、テキストの会話中に存在する感情やパターンを識別し、評価するための分析エンジンです。トピック、文章などのテキストの一部が事実であるか主観的であるかを認識し、これらのコンテンツ内で表現された意見がプラス、マイナスまたはニュートラルであるかどうかを判断します。

18. Semantria

Semantriaは、クライアントからのテキスト、つぶやき、その他のコメントを収集し、細かく分析して実用的で価値の高い洞察を得ることによって、ユニークなサービスアプローチを提供するツールです。SemantriaはAPIとExcel プラグインによるテキスト分析を提供し、大きな知識ベースがあり、深い学習も使っています。

19.Trackur

Trackurは、個人またはビジネスに関するソーシャルメディアの言及を追跡する監視ツールであり、ビジネスオーナーはいつでもそのことについて話しているかどうかを正確に知ることができます。そして監視している特定のキーワード対する感情がプラス、マイナスまたはニュートラルであるかどうかを判断します。

20. SAS Sentiment Analysis

SAS Sentiment Analysisは、主なWebサイト、ソーシャル・メディア・サイト、企業内部の文書などからデジタル・コンテンツを収集（クロール）し、強力な統計テクノロジーと言語ルールを駆使し、収集したテキストに含まれるセンチメントを抽出します。これを元に消費者、顧客、競合企業の感情を把握するために集計・グラフ化し、トレンドを見つけ出します。

21. Opinion Crawl

Opinion Crawlは、現在の出来事、企業、製品、および人々のオンライン感情分析サービスです。トピックを入力して、そのトピックへの感情評価を取得でき、それぞれのトピックについて、現在のリアルタイム感情、最新のニュース見出しのリスト、サムネイル画像の数、公開されている主な意味概念のタグクラウドを示す円グラフが表示されます。コンセプトは、どのような問題や出来事がプラスかマイナスかを見ることができます。

データ抽出ツール

22. Octoparse

Octoparseは、どんなWEBサイト上のデータも手軽に抽出することができる強力な無料Webクローラーです。プログラミングの知識がなくても、ダウンロードした後、マウスクリックで簡単にデータを抽出できます。取得したコンテンツをダウンロードし、CSV、Excel、またはデータベースなどの構造化フォーマットとして保存できます。
それに、クラウド型プラットフォームも提供するので、スケジュール設定が可能で、自動取得したデータはクラウドに保存され、どこでもアクセスできます。ハードウェア保守も不要だし、ネットワーク中断に心配する必要もありません。IPが自動的に巡回できるので、アクセス拒否を効果的に避けられます。

23. Content Grabber

Content Graberは、企業向けのWebクローラーソフトウェアです。単独なWebクローリングエージェントを作成できます。ほぼすべてのWebサイトからコンテンツを抽出し、Excel、XML、CSV、ほとんどのデータベースなどの任意の形式で構造化データとして保存できます。

これは、多くの強力なスクリプト編集、インターフェイスのデバッグを提供するので、高度なプログラミングスキルを持つ人に適しています。ユーザーは、C＃またはVB.NETを使用して、スクリプトをデバッグしたり書き込んでクローリングプロセスをプログラミングすることができます。たとえば、Content Grabberは、Visual Studio 2013と統合して、ユーザーの特定のニーズに基づいて、高度で洗練されたカスタマイズされたクローラーに最も強力なスクリプト編集、デバッグ、単体テストをサポートします。

24. Import.io

Import. IoはURLを入力するだけでデータの抽出ができるツールです。クラドベースのサービスであるため、ソフトウェアなどのダウンロードやインストールは一切必要ありません。ページのURLを入力すると、自動でデータ箇所を判断して情報を集めてくれます。もちろんWindows、Mac、Linuxで使えるスクレイピング用のアプリも用意されています。スクレイピングの終了後、Csv/Json形式でデータをダウンロードできます。さらに、毎週、毎日、毎時のクロール作業をスケジュールできます。

25. Parsehub

Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートする優れたWebクローラーです。Web上の文書を読み込んで解析し、関連するデータを出力できる機械学習技術を備えています。

ParsehubはWindows、Mac OS X、Linuxなどのデスクトップクライアントとして利用でき、ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。

26. Mozenda

Mozendaは、ポイントアンドクリックで、Webからコンテンツを簡単に抽出できるクラウドベースのWebスクレイピングサービスです。データ抽出に有用な多くのユーティリティ機能を提供し、ユーザーは抽出したデータをクラウドストレージにアップロードすることが許可されます。

データベース

27. Data.gov

Data.govは米国のオープンガバメントに関する取り組みの中で代表的なもので、政府機関が保有する情報・データを入手できるサイトです。このサイトでは、単に統計データの集計結果を公表しているのではなく、ローデータを様々な形（CSV、JSON、PDF、RDF、RSS、XLS、XML）で取得可能となっており、利用者が自由に取得・加工・分析することができるようになっています。また、このData.govの構築に関わったSocrata社による「Open Data API」を利用することによってAPI経由での取得も可能です。

28. US Census Bureau

US Census Bureau（アメリカ合衆国国勢調査）は、人口データ、地理データおよび教育を扱う米国市民の生活に関する豊富な情報があります。

29. The CIA World Factbook

The CIA World Factbookは、世界中のあわせて268の国家・属領・その他の地域について、人口統計・地理・通信・政治・経済・軍事の2、3ページの要約を提供しています。

30. PubMed

PubMedは米国国立医学図書館(U.S. National Library of Medicine)が提供する、生命科学や生物医学に関する参考文献や要約を掲載するMEDLINEなどへの無料データベースです。2017年1月5日時点で、最古の1966年からの2680万件以上の記事があり、毎年約500,000件が追加されています。同時点で1310万件が抄録とともに掲載されており、1420万件が全文へのリンクがあります（そのうち380万件の記事が全文無料利用可能）。また、全文データへのリンクも案内されます。

2018-12-12

ゼロからWebクローラーを構築する方法

Webスクレイピング

We Are Social とHootsuiteの調査報告書「Global Digital in 2018」によると、世界中のインターネットユーザーの数は、2017年から7％増加して40億を超えました。世界の人口は約76億人、インターネット利用者は約40億人で、総人口の53％に相当します。

インターネットの普及により、電子メール、ショッピングサイトでの買い物、スマートフォンを使った情報の検索や、ブログへの書き込みなど、インターネットは私たちの私生活に浸透し、日常生活に欠かせないライフラインとなりつつあります。私たちがインターネット上で行うことも大な量の「ユーザーデータ」を生成しています。このようなデジタル変換は、データの収集、保存、分析の方法に新たな課題をもたらしました。

Webクローラー（スパイダーやスパイダーボットとも呼ばれる）を構築することは、ビッグデータセットを集約するためのスマートなアプローチです。この記事では、次の質問に取り組んでいきます。

1) Webクローラーとは？

Webクローラーは、インターネット上のWebサイトのコンテンツを索引付けすることによって動作するインターネットボットです。これは、コンピュータ言語で書かれたプログラムまたはスクリプトであり、インターネットから自動的に情報やデータを取得するものです。

2) Webクローラーの種類&機能は？

さまざまなアプリケーションに応じて、Webクローラーには、検索エンジン用クローラー、定点観測用クローラー、SEO対策クローラーの4つのタイプがあります。

検索エンジン用クローラー

サイトを巡回して、そのサイト内の文字や画像を収集して、検索用元データとして蓄積するためのクローラです。これはもっとも知れている利用方法です。

著名な検索エンジンのクローラーは以下の通りです。

· Googlebot（Google）

· Yahoo Slurp（日本以外のYahoo!）

· Baiduspider（百度）

· Yetibot（Naver）

定点観測用クローラー

定点観測と言えば、決まったサイトの、決まったページのみを定期的に巡回して、サイトの新着情報、更新情報を取得するためのクローラです。例えば、複数の価格サイトから、商品ごとの価格データを取得ことで、毎週の価格変動を分析し、価格、価格増減等をまとめた販売戦略資料を自動作成できます。

SEO対策クローラー

SEOにおいて、クローラーはページをインデックスすることで、検索結果にページを表示させるという役割があります。なので、クローラーがサイト内のどのページを読み込んでいるかについては、SEO対策において改善策を練るための指針の１つになります。「Google Search Console」というGoogleが提供している無料ツールがあります。このツールを用いることで、クローラーの行動に関して詳細な情報を入手することが可能です。

3) Webクローラーを構築するには？

プログラミング言語を使う（例：Python）

プログラミング言語を使ってWebクローラーを構築したいと思っている非プログラマーにとって、PHP、Java、C / C ++と比べ、Pythonは最も簡単なものです。Pythonの文法は、英語を読める人なら誰でも簡単で分かりやすいです。

以下はPythonで書かれたWebクローラーの簡単な例です。

import Queue

initial_page = "http://www.renminribao.com"

url_queue = Queue.Queue()

seen = set()

seen.insert(initial_page)

url_queue.put(initial_page)

while(True):

if url_queue.size()>0:

current_url = url_queue.get()

store(current_url)

for next_url in extract_urls(current_url):

if next_url not in seen:

seen.put(next_url)

url_queue.put(next_url)

else:

break

プログラミングの知識がない初心者として、Pythonを学び、Webクローラーを構築する書くことに時間と労力を費やすことが絶対必要です。それにこの過程は数ヶ月続くかもしれません。

Webスクレイピングツールを使う（例：Octoparse）

初心者が短時間でWebクローラーを作成したい場合は、Octoparseのような視覚的なWebスクレイピングソフトウェアを検討することをお勧めします。これはコーディングを必要とないWebスクレイピングツールで、無料のバージョンで提供されています。他のWebスクレイピングツールと比べて、OctoparseはWebサイトからデータをすばやく取得するためのコスパいいソリューションとなります。

Octoparseで Webクローラーを構築する

1. 超初心者向けのテンプレートモード

Octoparseのソフトには数十種類のあらかじめ作成されたテンプレートがあり、瞬時にデータを取得できて、スクレイピングタスクを設定する必要はありません。Octoparseの新しいタスクテンプレートは、誰でも簡単にWebスクレイピングを利用できるように設計されています。テンプレートを使用すると、タスクの作る学習時間を短縮し、すぐにデータを取得できます。この時点でテンプレートはAmazon、Indeed、Instagram、Twitters、YouTube、食べログなど多くの人気サイトがカバーされています。

2. 提示ガイドがあるウィザードモード

Octoparseのウィザードモードには、「List or Table」、「List and Detail」、「Single Page」の3つのテンプレートを用意していて、ユーザーが段階的にデータをスクレイピングする際のガイドとなります。ウィザードモードは特定のページ構造だけで機能し、ユーザーがWebページの構造を正しく把握する上に、どのデータフィールドを抽出したいかをOctoparseに伝える必要があります。

3. 複雑なスクレイピングできるカスタマイズモード

テンプレートがなく、webサイトが複雑な場合、テンプレートモードとウィザードモードは私たちが望むスクレイピング要求に満たすことはできません。したがって、複雑な構造を持つWebサイト（ログインや検索が必要なサイトなど）では、より柔軟なワークフローを設定できるカスタマイズモードをお勧めします。カスタマイズモードはJavaScript、AJAXなど動的なサイトにも対応できる自由度の高く強力なWebスクレイピングモードです。

Octoparseを使ってWebクローラーを構築する方法の例を示します。[VEDIO：Amazonからの製品情報をスクレイピングする（Octoparse 7.X）]

4) まとめ

このデータ欲しいな、と思った時にすぐデータ収集できるかどうかは、今後のビジネスにおいて大きな影響をあたえるでしょう。「Python、ちょっと難しいな」と思われた方、Octoparseのようなスクレイピングツールはいかがでしょうか？忙しくても、時間がなくても、スクレイピングスキル習得への道のりに役立つと思いますよ。

2018-12-10

超初心者向けのWebスクレイピングーーTemplate Mode

Webスクレイピング

データ業界で長年働いてきたOctoparseチームは、データをより使いやすく、誰でも利用できるようにずっと努力しています。ですから、今年11月には、テンプレートモード（Template Mode）という、数々の革新の1つであるバージョン7.1 [ ダウンロード ]をリリースしました。

テンプレートモード（Template Mode）とは？

具体的には、Octoparseのソフトには数十種類のあらかじめ作成されたテンプレートがあり、瞬時にデータを取得できて、スクレイピングタスクを設定する必要はありません。Octoparseの新しいタスクテンプレートは、誰でも簡単にWebスクレイピングを利用できるように設計されています。テンプレートを使用すると、タスクの作る学習時間を短縮し、すぐにデータを取得できます。

この時点でテンプレートはAmazon、Indeed、Instagram、Twitters、YouTube、食べログなど多くの人気サイトがカバーされています。また、皆さんがほかのWebサイトを追加したいなら、私たちに教えてください。テンプレートの作成を検討します。

ウィザードモードとの違いは？

ずっとOctoparseを使っている方は、すでにウィザードモードを試したかもしれません。実際には、新しいテンプレートモードとウィザードモードはまったく違います。ウィザードモードは特定のページ構造だけで機能し、ユーザーがWebページの構造を正しく把握する上に、どのデータフィールドを抽出したいかをOctoparseに伝える必要があります。テンプレートモードはあらかじめ構築されたスクレイパーで、Octoparseに検索条件を伝えるだけで、特定のWebサイトから事前に定義されたデータフィールドを抽出できます。

使い方は？

ステップ1.ホーム画面から「Task Templates」の下にある「 +Task」を選択する

ステップ2.テンプレートを選択する

ステップ3.事前に定義されたデータフィールドとパラメータを確認する

ステップ4.「Use Template」を選択する

ステップ5.検索キーワードなど、パラメータの変数を入力する

ステップ6.テンプレートを保存して実行する

いかがでしょうか？簡単でしょう！タスクテンプレートを使うと、プログラミング知識の少ない/ない人でも簡単にWebスクレイピングを達成できます。パラメータ（ターゲットページのURL、検索キーワードなど）を入力するだけで、データがどんどん抽出されてきます。皆さんも試してみてください。