2018-12-04

スタートアップの成長に役立つツール6選！

知識

あなたが起業やベンチャーにキャリアチェンジすることを考えたことがありますか？正直、私があります、特に仕事がうまくいかない時ですね。でも、何からはじめますか？資金、経験、失敗、アイデア……と、いろいろな疑問が浮かび上がってきます。

今のビッグデータ時代には、ビッグデータを活用してビジネスに生かすことは、今や当たり前になりつつあり、この激しい競争の中でスタートアップが生き残る道も厳しいです。大企業などのように潤沢な資金と時間を費やせないスタートアップにとって、限られているリソースをどのように最大の効果に出るのか？

近年では、ソーシャルメディアような無料ツールが低予算でマーケティング戦略を実行することができます。マーケティングにかけられる予算が少ないスタートアップ企業は、マーケティングや広告の面ではかなり役に立ちます。

そこで今回は、タートアップの成長に欠かせないツールを6個、まとめてみました。

1. Googleトレンド

どんな業界でも、市場の動向を研究し予測することは不可避です。起業者として、最も経済的な方法は、ビッグデータを活用して、業界の情報を了解できることです。Googleトレンドは、起業家が業界の発展トレンドを把握するのに役立つ便利なツールです。

Googleトレンドとは、特定のキーワードがどれくらい検索されているのか、どんなキーワードが人気なのかを視覚的にみることができるサービスです。例えば、自社のブランドはどのように検索されているでしょうか？検索数が急増するタイミングは？競合他社の状況は？Googleトレンドでは、リアルタイムの検索データをもとに顧客の検索行動の推移を分析することができます。Googleトレンドを使って市場の動向・人気度を把握しながら、戦略調整に活かすことができます。

2. Googleアナリティクス

オンラインビジネスで起業を行う場合、まず最初は、自社の製品や商品をアピールするWebサイト/ホームページを作るのは普通ですね。そこでWebサイトの分析に欠かせないのはアクセス解析ツールです。アクセス解析ツールを入れると、

どれくらいの人が訪問しているのか

どれくらいの成果が出ているのか

どのページがよく見られているのか

といった情報が分かります。この情報をもとにマーケティングを行っていくのが基本です。

Google アナリティクスは、Googleが提供している無料で高機能なアクセス解析ツールです。サイトへのアクセス数をリアルタイムに把握したり、アクセスデータを期間ごとやデバイスごとで比較もできるため、課題を抽出してサイト運営に活かすことができます。今では、多くの投稿サイト（Qiitaなど）でもGoogleアナリティクスのトラッキングコードを埋め込むことができます。トラッキングコードを埋め込むことで、自分の投稿やマイページなどがどの程度見られているかを把握することができるようになります。

3. SimilarWeb

Webサイトのアクセス解析をするうえで、競合サイトのアクセス状況と自社のWebサイトのアクセス状況を比較したい時がありますよね？しかし、競合サイトを運営している会社に直接聞くわけにはいきません。そこでURLを入力するだけで、そのサイトのアクセス状況などを把握することができるツール「SimilarWeb」お勧めします。

SimilarWeb（シミラーウェブ）とは、イURLを入力するだけで、対象のサイトのトラフィック数、流入、検索のキーワード等などといった競合サイトのアクセス状況を把握できるツールです。その数字は、統計的な推測値ですが、ある程度の近似値が得られるという認知が広がっています。その精度は、もちろん100％完全にわかるものではありません。しかし、競合他社のある程度の傾向がつかめるなど、世界中から注目を集めています。

4. Octoparse

ビジネスを成長させるためには、市場やターゲット顧客を拡大することが不可欠です。そのため、ネット上に掲載されている会社情報から、攻めたい企業を選ぶだけで、ターゲットリストを作るのは普通です。ターゲットリストを基に、リードやアポイントを追加し、顧客への適切なアプローチを可能にします。そこで、 Web情報を自動収集できるツール「Octoparse」を紹介したいです。

Octoparseは無料のWebスクレイピングツールで、コーディングせずにWebデータをすばやく取得でき、エクセルファイルなど利用可能なデータに変換できます。セールスにおいて、例えば、ｉタウンページからお店・企業の電話番号を取得する場合、コピペは面倒で、OctoparseのようなWebスクレイピングツールを使うと、電話番号を簡単に抽出し、効率的にセールスリストを作成できます。

5. Mailchimp

近年、日本でもデジタルマーケティングに関する施策を行う企業が増えてきました。そのなかで、もっとも身近な施策の１つが「メールマーケティング」です。企業は自社の持つ顧客リストに対してEメールを配信することで、集客やファンの育成、リピーターの醸成などの目的を達成しようとします。古くからあるメルマガ（メールマガジン）もメールマーケティングの一形態です。今回はメールマーケティングで大人気の「MailChimp」お勧めします。

MailChimpの最大のメリットは、無料で使用できる範囲が広い点です。簡単にHTMLメールが作成できて、日時指定でメール配信設定ができて、配信先メールアドレスリストの作成・管理、A/Bテスト、各種分析レポート、Facebook広告の作成などメール配信システムで使える一般的な機能はほぼ実装されています。

6. Canva

Webサイト/ホームページを作る時、ソーシャルメディアで投稿するとき、プロモーションをする時、必ずいろいろな画像を設計する必要がありますよね。スタートアップは広告宣伝費に大きな予算を割けないので、宣伝画像のデザインに苦戦している会社も多いと思います。そこで、無料で使えるグラフィックデザインツール「Canva」を利用できます。

「フライヤー（チラシ）」「バナー広告」「ポスター」「ロゴ」「名刺」「プレゼンテーション」などのマーケティングや集客用のデザインテンプレートも用意されています。中には飲食店用のメニューデザインなんかもあります。テンプレの中から気に入ったものを選んで、文字や写真を変えたりすることで、簡単におしゃれなデザインが作成できます。コスト削減したいスタートアップにとってはかなり経済的ですね！

いかがでしたでしょうか？
これらのツールを一つずつ、消化してあなたのビジョンや目標達成に役立てて頂ければと思います。

2018-11-21

「地下ホテル」に対する評価を取得してみました！

データ取得

皆さんは中国・上海市の「地下ホテル」を聞いたことがありますか？

今日、中国・上海市に世界で最も海抜の低い5つ星ホテル「インターコンチネンタル上海ワンダーランド(InterContinental Shanghai Wonderland)」が正式開業しました。このホテルは、2002年まで安山岩の採石場だった場所で、深さ88ｍ、幅280ｍほどの巨大な穴の中に建てられたことから「地下ホテル」や「深い穴のホテル」とも呼ばれています。ホテルは崩れやすく複雑な形をした穴の壁面に建設されたため、構想から完成まで12年かかって、ようやく今年、完成しました。

ソーシャルメディアで大きな話題を集めているこのホテルは今日から宿泊を受け付けますが、初日はすでに予約でいっぱいになっています。宿泊料金は１泊、日本円で6万〜170万円らしいです。

開業するに、このホテルの真実はメディアに公開され、世界中の記者たちも惹かれています。日本のメディアが報道した後、多くの日本ネチズンは非常に好評し、一度行きたいと言いました。

今回はちょうど最近リリースされた新機能：タスクテンプレートを利用して、Twitterから皆さんの「地下ホテル」に対する評価を取得しようと思います。Octoparseの新しいタスクテンプレートは、誰でも簡単にWebスクレイピングを利用できるように設計されています。あらかじめ作成されたタスクテンプレートを使用すると、スクレイピングタスクを設定する必要はありません。すぐに使用できるタスクテンプレートは学習時間を短縮し、すぐにデータを取得できます。

さて、始めましょう！

1.　Task Templatesの下にある「 +Task」をクリックします。

2.　Social Mediaをクリック、Twitter　→　Tweetsを選択します。それから「Use template」をクリックします。

3.　キーワード「地下ホテル」を入力します。必要に応じて、Task nameとTask groupを変更できます。

4.　「Save and run」をクリックして、「Local Extraction」または「Cloud Extraction」（有料版のみ）を選択し、タスクを実行します。

いかがでしょうか？簡単でしょう！タスクテンプレートを使うと、プログラミング知識の少ない/ない人でも簡単にWebスクレイピングを達成できます。パラメータ（ターゲットページのURL、検索キーワードなど）を入力するだけで、データがどんどん抽出されてきます。この時点で、Amazon、Indeed、Instagram、Twitters、YouTube、食べログなどの多くの人気サイトがカバーされています。皆さんも試してみてください。

取得したツイートを簡単に分析したところ、だいたい2種類分けられます。一つは「このホテルすごい、行ってみたい！」で、もう一つは「崩れたり、水没したりなどの恐れがあり、行きたくない」です。皆さんはどう思いますか？

ネチズンの評価とは別に、この「地下ホテル」にもっと詳しいために、メディア側の情報をより多く収集しました。ここでは、皆さんに紹介したいと思います。

佘山は中国の国家レベル森林公園で、上海の裏庭とも呼ばれます。風景が美しくて、毎年数多くの観光客が訪ねてきています。しかし、公園の南側にある採石場がどうもしっくりこない気がします。2006年、シマオグループ（Shimao Group）はこの深い穴を改装し、廃棄された採石場に世界初の5つ星ホテルを建設し、この「傷跡」を世界の注目を集める「ダイヤモンド」に変えようとしました。

複雑な地盤のために工事は難航で、完成まで12年かかり、20億元（約３２６億円）を費やし、この超豪華なホテルは完壁に完成されました。中国メディアによると、マグニチュード９規模の地震にも耐えられる構造だということで、アメリカのナショナルジオグラフィックチャンネル「NG Megastructures」による「世界の建築奇跡トップ10」の1つに選ばれました。

すごいと思わない？もし余裕があれば、一度でも行ってみましょう！

2018-11-16

Webスクレイピングの始まりはいつ？これからどうなる？

Webスクレイピング

Webスクレイピングとは？

Wikiでの紹介はこうです：ウェブスクレイピング（英: Web scraping）とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。

Webスクレイピングはどのように動作しますか？

一般に、Webページをスクレイピングするとき、わずか2つのステップがあります。

Webページを取得する→ページから特定のデータをスプレッドシートまたはデータベースにコピーする

Webスクレイピングはどのように始まったのですか？

多くの人にとって、「ビッグデータ」や「機械学習」のような新鮮なテクニックのように聞こえるが、Webスクレイピングの歴史は実際にははるかに長く、World Wide Web（以下はWWWを略する）または俗に「インターネット」が生まれた時代に大きく後戻りしています。

始まりの時、インターネットは検索さえできませんでした。検索エンジンが開発される前は、インターネットはユーザーが特定の共有ファイルを見つけるためにファイル転送プロトコル（FTP）サイトの集まりに過ぎませんでした。インターネット上で利用可能な分散データを見つけて整理するために、インターネット上のすべてのページを取得し、データベースにコピーして索引が付けられる特定の自動化プログラム（Webクローラー/ボット）は作成されました。

その後、インターネットが成長し、最終的に何百万ものWebページのホームになり、テキスト、画像、ビデオ、オーディオなどを含む豊富でオープンなデータソースに変わります。

データソースが非常に豊富で簡単に検索できるようになるにつれて、様々なWebサイトに分散している情報を探すのが簡単になりました。しかし、インターネットからデータを取得したい時、すべてのWebサイトでダウンロードオプションが提供されているわけではなく、面倒で非効率な手作業でコピーするのが明らかに問題になります。

それで、Webスクレイピングが登場しました。実際に、Webスクレイピングは検索エンジンで使用されているものと同じように機能するWebボット/クローラによってサポートされています。つまり、取得とコピーすることです。唯一の違いは規模かもしれません。Webスクレイピングは特定のWebサイトからの特定のデータのみを抽出し、検索エンジンはインターネットのほとんどのWebサイトを取得します。

- タイムライン

· 1989年 WWWの誕生

技術的には、WWWはインターネットとは異なります。前者は情報空間を指し、後者はコンピュータで構成されるネットワークを指します。

WWWの発明者であるTim Berners-Leeのおかげで、私たちの日常生活の一部であった以下の3つのことをもたらしました。

- 望むWebサイトに行くために使うUniform Resource Locators（URL、インターネット上のページや画像、文章などの場所を示したアドレス）。

- Webページ間をナビゲートするための埋め込まれたハイパーリンク（たとえば、どこで製品仕様を探すのか）。

- テキストだけでなく、画像、オーディオ、ビデオ、ソフトウェアコンポーネントも含むWebページ。

· 1990年 最初のWebブラウザの誕生

またTim Berners-Leeによって発明されたWorldWideWeb（スペースなし）と呼ばれ、WWWプロジェクトに名付けられました。Webの登場から1年後、人々はそれを見てそれとやり取りする方法を持っていました。

· 1991年 最初のWebサーバーと最初のhttp://Webページの誕生

Webはやや穏やかな速度で成長し続けました。1994年までに、HTTPサーバーの数は200台を超えました。

· 1993年6月 最初のWebロボット - World Wide Web Wanderer

今のWebロボットと同じように機能しましたが、Webのサイズを測定することのみに使われていました。

· 1993年12月 最初のクローラベースのWeb検索エンジン - JumpStation

Web上で利用可能なWebサイトがあまりないため、当時の検索エンジンは、人のWebサイト管理者がリンクを収集して特定のフォーマットに編集することに依存していました。

JumpStationは新しい進歩をもたらしました。これは、初めてWebロボットに依存するWWW検索エンジンです。

それ以来、人々はこれらのプログラムによるWebクローラーを使用してインターネットを収集し、整理し始めました。 Infoseek、Altavista、Exciteから、今のBingとGoogleまで、検索エンジンボットのコアは同じです：

Webページを見つけてダウンロード（取得）し、Webページに表示されているすべての情報をスクレイピングし、検索エンジンのデータベースに追加します。

Webページは人間のために設計されたものであり、自動化された使い方ではないため、Webボットの開発にもかかわらず、コンピュータ技術者や科学者にとっては、普通の人はもちろんのこと、Webスクレイピングを行うのはまだ難しいです。だから、人々はWebスクレイピングをより利用しやすくすることに専念してきました。

· 2000年 Web APIとAPI クローラー

APIはApplication Programming Interfaceの略で、ソフトウェアコンポーネントが互いにやりとりするのに使用するインターフェースです。

2000年、SalesforceとeBayは独自のAPIを発表しました。これにより、プログラマは公開されているデータの一部にアクセスしてダウンロードできるようになりました。

それ以来、多くのWebサイトでは、人々が公開データベースにアクセスするためのWeb APIを提供しています。

Web開発においては、APIは一般にHTTP要求メッセージ群とXMLまたはJSON形式などの応答メッセージの構造定義で構成されます。

Web APIは、Webサイトによって提供されるデータを収集するだけで、開発者にWebスクレイピングを行うためのよりフレンドリな方法を提供します。

· 2004年 Python Beautiful soup

すべてのWebサイトがAPIを提供するわけではありません。たとえそれがあっても、望むすべてのデータを提供するわけではありません。だから、プログラマーはまだWebスクレイピングを容易にする方法を開発しようとしていました。

2004年にBeautiful soupがリリースされ、Python用に設計されたライブラリです。

コンピュータプログラミングでは、ライブラリは一般的に使用されるアルゴリズムのようなスクリプトモジュールの集合であり、書き換えなしで使え、プログラミングプロセスを簡素化します。

簡単なコマンドでBeautiful soupはサイト構造を理解し、HTMLコンテナ内のコンテンツを解析するのに役立ちます。これは、Webスクレイピングのための最も洗練された高度なライブラリであり、現在も最も一般的で流行的なアプローチの1つです。

· 2005-2006年 ビジュアルなWebスクレイピングソフトウェア

2006年にStefan AndresenとKapax Software（2013年にKofaxに買収された）は、Web Integration Platformバージョン6.0を発表しました。これは、視覚的なWebスクレイピングソフトウェアとして理解されています。ユーザーは簡単にWebページのコンテンツを強調し、使用可能なExcelファイル、またはデータベースに変換できます。

ですから、Webスクレイピングソフトウェアは数多くの非プログラマが独自にWebスクレイピングを行う方法になります。

それ以来、Webスクレイピングが主流になってきています。プログラマー以外の人にとっては、ビジュアルプロセスを提供する80件以上すぐに使用できるデータ抽出ソフトウェアを簡単に見つけることができます。

これからWebスクレイピングはどうなるのか？

人々は常にデータを求めています。私たちは、データを収集し、データを処理し、データを研究、洞察、情報、物語、資産などのさまざまなものに変換します。以前では、データの探しと収集することに、多くの時間、労力、費用を費やしていました。これは大手企業や大規模な組織だけがそういう余裕あります。

2018年には、WWWまたは「インターネット」として知られているものは、18億以上のWebサイトから構成されています。このような膨大な量のデータが、数回のクリックで利用可能になりました。より多くの人々がインターネットを利用するにつれて、毎秒でもより多くのデータが生成されます。

今は過去に経験した時代よりも簡単な時代です。Web上で利用可能な限り、個人、企業、組織は必要なデータを入手することができます。Webクローラー/ボット、API、標準ライブラリー、様々な使いやすいソフトウェアのおかげで、誰かがデータを入手する必要があれば、必ず方法があります。または、便利で手頃なプロに頼むこともできます。

guru.comで「web scraping」を検索すると、10,088件の検索結果が出てきます。つまり、10,000人以上のフリーランサーがWebサイトでWebスクレイピングサービスを提供しています。Upworkでは13,190件で、fievere.comでは1,024件です。日本国内にもきっとたくさんあります。

業種別の企業によるWebデータに対する需要の増加は、Webスクレイピング業界を推進し続けて、新しい市場、雇用機会、ビジネスチャンスをもたらしました。

その一方で、他の新興産業と同様に、Webスクレイピングも法的問題を招いています。

Webスクレイピングの合法性を取り巻く法的状況は進化し続けていますが、今ではまだ明確の法律がありません。今のところ、この傾向から出てくる最も興味深い法律問題の多くは、未だに解決されていなく、あるいは具体的な事実に依存しています。

Webスクレイピングはかなり長い間実践されてきたが、裁判所は、ビッグデータという背景でどのような関連法理論が適用されるかについて検討し始めているに過ぎありません。

現時点では、Webクローリングやスクレイピングに関連することがまだ発展しているため、これからどうなるのかを予測できません。しかし、確かめることは一つあります。つまり、インターネットがある限り、Webスクレイピングがあるということです。

新しく生まれたインターネットを検索可能にし、爆発的に成長するインターネットをより使いやすく、アクセスしやすくするのはWebスクレイピングです。

近い将来に、インターネットやWebスクレイピングりは、このように進むだろうということは間違いありません。

2018-11-13

Webスクレイピングを簡単にする

Webスクレイピング

Webスクレイピングを簡単なクリックとフェッチに主張したいが、これは本当ではなく、Webスクレイピングは難しいです。さて、Octoparse 、Parsehub、MozendaのようなビジュアルなWebスクレイピングツールがなかった時代を考えてみましょう。プログラミング知識のない人は、Webスクレイピングのような技術集約的な仕事に引き止められます。ソフトウェアの学習には時間がかかりますが、これらの「知能な」プログラムは誰もがWebスクレイピングを実行できるようにしました。

なぜWebスクレイピングは難しいのですか？

· コーディングは全ての人に向いていない

興味を持っている場合にのみ、コードの学習は面白いことです。興味がないか、時間がない場合、Webからデータを取得するのに障壁となる可能性があります。

· 全てのWebサイトが同じではない（明らかに）

Webサイトはいつも変化し、スクレイパーのメンテナンスには非常に時間とコストがかかります。普通のhtmlコンテンツをスクレイピングすることはそれほど難しくないかもしれませんが、それ以上のことがあります。PDF、CSV、またはExcelからのスクレイピングはどうしますか？

· Webページは多くの方法でユーザーと対話するように設計されている

複雑なJava ScriptsとAJAXメカニズムから作られたサイト（ほとんどの人気サイト）は、スクレイピングが難しいです。また、データにアクセスするためにログインを必要とするサイトや、フォームの後ろで動的にデータが変更されるサイトは、Webスクレイパーにとってすごく邪魔なものです。

· スクレイピング防止機構

Webスクレイピングへの意識が高まるにつれて、簡単なスクレイピングがボットとして検出されやすく、ブロックされる可能性があります。Captchaや限られたアクセスは、しばしば短時間で頻繁に出てきます。一般的なスクレイピング防止対策を無効にするために、ユーザーエージェントの回転、IPアドレスの変更、およびプロキシの切り替えなどの戦術が使用されます。さらに、ページのダウンロードの遅延を追加したり、人間の好きな行動を追加したりすることで、「あなたはボットではない」という印象を与えることもできます。

· 「スーパー」サーバーが必要

いくつかのページをスクレイピングしたり、数百万ページのような規模でスクレイピングしたりすることは、まったく異なることです。大規模なスクレイピングには、I / Oメカニズム、分散クローリング、通信、タスクスケジューリング、重複チェックなどのスケーラブルなシステムが必要です。

興味を持っている場合、Webスクレイピングについて詳しくご覧ください。

「自動」Webスクレーパーはどのように機能しますか？

自動Webスクレイパーのほとんどは、WebページのHTML構造を解読することによって動作します。「ドラッグ」と「クリック」で必要なものをスクレイパーに「伝える」ことによって、スクレイパーはさまざまなアルゴリズムを使って、取得したいデータを「推測」し、それでページからターゲットテキスト、HTML、またはURLを取得します。

Webスクレイピングツールの使用を検討すべきですか？

この質問には完璧な答えはありません。しかし、以下のいずれかの状況がある場合、スクレイピングツールを利用できるかもしれません。

1) コーディング方法を知らない（深く掘り下げる欲望/時間がない）

2) コンピュータプログラムに快適

3) 時間/予算が限られている

4) 多くのサイトからスクレイピングする

5) 一貫してスクレイピングしたい

上記のいずれかに合っている場合は、あなたのニーズを最も満たすスクレイピングツールを見つけるのに役立つ記事があります。

Webスクレイピング用のソフト30選

ネット情報収集の味方「スクレイピングツール」3選

「よりスマート」になるWebスクレイパー

世界は進歩しており、異なるスクレイピングツールもアップグレードしています。最近私が知っているスクレイピングツールにも注目する価値がある変更点はいくつかあります。スクレイピングを誰にでも簡単に、アクセスしやすくすることは素晴らしいです。

Octoparseは最近、新しいバージョンをリリースしました。このバージョンでは、あらかじめ作成されたテンプレートを使ってスクレイピングできる新しいテンプレートモードが導入されました。Amazon、Indeed、Booking、食べログ、Twitters、YouTubeなど多くの人気サイトがカバーされています。新しいテンプレートモードでは、ユーザーはキーワードや位置などの変数を入力するよう求められます。スクレーパーは自動動作して、サイトからデータを収集します。望むテンプレートがあれば、それはかなり素晴らしい機能です。Octoparseチームも常に新しいテンプレートを追加しています。

このバージョンには、新しいURL機能も含まれています。これにより、

1つのタスク/クローラーに最大100万のURLを追加する（以前は2万）
ローカルファイルまたは別のタスクからURLを一括インポートする
あらかじめ定義されたパターンに従ったURLを生成する（例えば、ページ番号の変更）
スクレイピングタスクが2つに分割され、URLを抽出するタスクと抽出したURLから特定のデータを抽出するタスクがある場合、新しいベータ版では、手動でURLをあるタスクから別のタスクへ「転送」することなく2つのタスクを直接関連付けることができます。

Mozendaはこの数か月でリリースしていませんが、2017年12月の最後のアップデートではログイン後のスクレイピングをより簡単にすることを目的とした新しいクッキーストアが導入されました。それ以前は、インラインデータ比較や移動エージェントデータなどの主要な機能アップグレードもありました。リクエストブロッカーやジョブシーケンサーなどのその他の以前のアップデートでは、スクレイピングプロセスをより効率的にすることもできます。

Dexi.ioでは、12ヶ月以上前に行われた最後のアップデートでは、Dexi.ioアカウントで何が起きたかに基づいてアクションを実行するトリガ機能が導入されました。更新は1年以上経っていますが、複雑な仕事がある場合は、試す価値があります。

Import.ioは今年の7月に2つの新機能を追加しました。これらは主要なスクレイピング機能ではありませんが、必要な場合は非常に便利です：webhooksとextractorタグ付け。 webhooksを使用すると、データが抽出されるとすぐに、AWS、Zapier、Google Cloudなどの多くのサードパーティプログラムで通知を受けることができます。

Extractorタグ付けはAPIを介して余分なタグ付けを可能にし、データの統合と保存をより簡単かつ効率的にすることを目指しています。わずか1ヶ月前、Import.ioは、Country Based Extractorを提供することで、外国のデータをもっと簡単に入手できるようにしました。

Webスクレイピングの使用例

新たな情報が秒単位でWebに追加されることで、可能性は無限大です！

· 不動産情報を収集する（SUUMO、LIFULL HOME'Sなど）

· メールや電話などの見込み客情報を収集する（Yelp、Yellowpage、ｉタウンページなど）

· 競争分析のための製品情報を収集する（Amazon、eBayなど）

· 感情分析とブランド管理のための製品レビューを収集する（Amazonなど）

· 傾向や社会的な言及を識別するためのソーシャルメディアプラットフォームをスクレイピングする（Facebook、Twitter、Instagramなど）

· さまざまな研究トピックのデータを収集する

· 価格モニタを構築するための製品価格を収集する（Amazon、eBayなど）

· ホテルや航空券などの情報を収集する（Booking, Airbnbなど）

· 求人サイトから仕事情報を収集する（Indeed、リクナビNEXTなど）

· SEO追跡のための検索結果をスクレイピングする

· 医師のデータをスクレイピングする

· ブログやフォーラムのコンテンツを収集する

· さまざまなマーケティング目的でデータを収集する

· イベントリストをスクレイピングする

· などなど

次のステップは？

毎日どのぐらいのデータが作成されているかを知っていますか？現在のペースでは、毎日2.5エクサのデータが作成され、それに90％以上のデータが過去2年間に作成されました。データの量が前例のない割合で増加したり、データ駆動型の意思決定がこれまで以上に高く評価されるようになった時に、スクレイピングするかしないかは、遅かれ早かれ多くの人にとって質問になるかもしれません。技術は仕事を「よりスマートに」より簡単にし、もちろん、Webスクレイピング分野にも当てはまるはずです。

2018-11-05

2018年ソーシャルメディアスクレイピングツールトップ5

Webスクレイピング

ソーシャルメディアスクレイパーとは自動スクレイピングツールで、Facebook、Twitter、Instagram、LinkedInなどソーシャルメディアだけでなく、ブログ、ニュースなどからデータを抽出できます。これらのチャンネルは、Webを介してユーザーがコンテンツを生成するという共通点があります。

今ソーシャルメディアスクレイパーの定義を知っているので、これからソーシャルメディアデータセットをビジネスでどのように活用できるかをさらに詳しく説明し、推奨するトップ5のソーシャルメディアスクレイピングツールを挙げます。

ソーシャルメディアのデータを収集して何をできますか？

ソーシャルメディアから抽出されたデータは、間違いなく、人間行動に関する最もダイナミックな大きなデータセットであり、社会科学者やビジネスエキスパートが個人、団体、社会を理解する新しい機会をもたらし、データに隠された巨大な価値を探索できます。

[Social media analytics|a survey of techniques, tools and platforms]という記事では、ソーシャルメディアデータ分析の初期採用者は小売業や金融業界の企業で、ブランド認識、顧客サービスの改善、マーケティング戦略、さらには不正行為を検出するためにソーシャルメディア分析を適用したことが指摘されています。

上記の応用例とは別に、今のビッグデータ時代には、ソーシャルメディアのデータセットは次のように適用されます。

· 顧客感情測定

ソーシャルメディアから顧客のレビューを収集した後、特定のトピックまたは製品に対するニュアンス、背景、および感情を測定することによって顧客の態度を分析することができます。顧客感情を追跡することで、全体的な顧客満足度と顧客ロイヤルティを了解し、マーケティングキャンペーンに洞察を提供することができます。

· 市場細分化

Wikipediaで定義されているように、特定商品（サービスを含む）における市場を異質とみなし、顧客市場を細分化することによって特定カテゴリに対して集中的にアプローチすることを目的に行われます。ソーシャルメディアデータセットを入手して分析することで、製品やサービスの販売先と時期を知ることができます。市場をニーズ、特徴、行動様式などにより明確にグループ分けすることは、マーケティングの投資収益を最大化するのに役立ちます。

· オンラインブランドの監視

オンラインブランドの監視は、顧客からの声だけでなく、競合他社、報道機関、業界のKOLが何を言っているかを知ることもできます。製品やサービスだけでなく、カスタマーサービス、販売プロセス、社会的関与、顧客がブランドとのやり取りなどすべての接点に関係があります。

· 市場動向の把握

市場動向を把握することは、ビジネス戦略の調整に不可欠であり、業界の動向に近づいて同じペースでビジネスを維持します。ビッグデータ自動化ツールの支援を受けて、市場動向分析は、業界の影響力のある人やソーシャルメディアチャネルの出版物を追跡することによって、一定期間の業界データを単純に比較できます。

ソーシャルメディアスクレーパートップ5

Octoparse

Octoparseは、ソフトウェア型のスクレイピングツールで、コーディングせずに複雑なスクレイピングジョブに対応できます。

ポイントアンドクリックインターフェースで、実際にサイトを除きながらスクレイピング対象を選択できます。UIもわかりやすく、感覚的に操作ができます。無限スクロール、ログイン認証、テキスト入力 (検索結果のスクラップ用)、ドロップダウンメニューからの選択をサポートしています。抽出されたデータは、Excel、JSON、HTML、またはデータベースとしてエクスポートできます。ダイナミックなサイトからリアルタイムでデータを抽出したい場合、Octoparse Cloud Extraction（有料プラン）は、スケジュール設定をサポートするので、動的データフィードを取得するのに適しています。価格は月額$ 149からで、無料版もお使いになられます。

ソーシャルメディアのデータをスクレイピングするために、OctoparseはすでにTwitterからツイートを抽出したり、Instagramから投稿を抽出したりするなど、多くのチュートリアルを公開しています。さらに、サンプルタスクを公開し、Octoparseにインポートしてデータを取得するだけで済みます。

Dexi.io

Dexi.ioはWebサービスなので、無駄なインストールやダウンロードは必要ありません。Dexi.ioは、抽出機、クローラ、パイプの3種類のロボットの作成をサポートしています。価格は119ドル/月からです。

Dexi.ioにはプログラミングスキルが必要ですが、Captcha、クラウドストレージ、テキスト分析（MonkeyLearnサービス統合）を、AWS、Googleドライブ、Google スプレッドシートなどのサードパーティサービスを統合して解決できます。

アドオン（有料プラン）もDexi.ioの革新的な機能であり、アドオンの数も増え続けています。アドオンを使用すると、ExtractorとPipesで利用できるより多くの機能をアンロックできます。

OutWit Hub

Outwit Hubは、OctoparseやDexi.ioとは異なり、洗練されたスクラップ機能やデータ構造認識だけでなく、シンプルなグラフィックユーザーインターフェイスも備えています。Outwit HubはFirefoxのアドオンとして始まり、後にダウンロード可能なソフトに変わりました。

プログラミングの知識を必要とせずに、OutWit Hubはリンク、メールアドレス、RSSニュースおよびデータテーブルを抽出してExcel、CSV、HTMLまたはSQLデータベースにエクスポートできます。

Outwit Hubには、入力したURLのリストからデータをすばやくスクレイピングする優れた「Fast Scrape」機能があります。使い方もシンプルで、簡単な構成のWebサイトスクレイピングに適しています。

Scrapinghub

Scrapinghubは、クローラ拡張を可能にするクラウドベースのスクレイピングツールで、ボット対策、ターンキーWebスクレイピングサービス、既製データセットを処理するスマートダウンローダを提供します。

このアプリは4つのすばらしいツールで構成されています：Scrapy Cloud（Pythonに基づいたWebクローラをデプロイして実行する）、 Portia（コーディングせずにデータを抽出するオープンソースソフトウェア）、 Splash（JavaScriptを使用するWebページからデータを抽出するためのオープンソースのJavaScript レンダリングツール）、Crawlera（Webサイト、複数の場所やIPからのクローラによってブロックされないようにするためのツール）です。

Scrapehubは完全なスイートを提供するのではなく、提供するツールは個別に課金されることはもちろん、市場ではかなり複雑で強力なスクレイピングプラットフォームです。

Parsehub

Parsehubは、Windows、Mac OS X、およびLinuxをサポートする、ソフトウェア型のスクレイピングツールです。JavaScriptとAJAXのページからデータを選択し抽出するためのグラフィカルインタフェースを提供します。URL指定とスクレイピングしたい箇所を選択するだけで、スクレイピングを実行します。

さらに、Parsehubにはブラウザベースの拡張機能があり、瞬時にスクレイピングタスクを開始できます。データは、Excel、JSON、またはAPI経由でエクスポートできます。
Parsehubの有料版は月額$ 149からで、市場でほかの製品よりも高いです。無料版がありますが、200ページまでしか対応できません。

まとめ

自動スクレイピングツールでできることを除けば、ソーシャルネットワーキングのTwitterやFacebookなど多くのソーシャルメディアチャンネルがユーザー、学界、研究者、特殊機関などに有料APIを提供しています。

ますます増え続ける繁栄したオンライン経済の発展に伴い、ソーシャルメディアは、顧客の声をよりよく聞き、潜在的かつ現在の顧客に真新しい方法で取り組むことによって、あなたのビジネスがその分野で目立つように多くの新しい機会をもたらします。

2018-10-15

Webクローラーを構築してホテルの最新情報を入手しよう！

データ取得

世界観光機関(UNWTO)によると、2017年の世界の観光客の総数は、前年と比べ7％増加して約13億2,220万人を果たしました。宿泊施設や交通サービスが支配的な旅行業は、最も競争力のある業界の1つとなります。

旅行業の発展に伴い、Booking.com、TripAdvisor.com、Airbnb.comなど世界のオンライン旅行代理店が急速に上場し、これまで以上に簡単にホテル、航空券の情報を入手できます。

Webクローラーとは？

Webクローラーとはインターネット上に公開されているテキスト・画像・動画などの情報を自動で抽出し、データベースに保管するプログラムのことです。詳しいのは「まだ知らない？Webクローラーのあれこれ」という記事をご覧ください。

抽出できるホテル関連の情報は？

· ホテル名

· 料金

· 評価

· 住所（例：町、都道府県、国、郵便番号）

· ホテル施設

· 説明

· Webサイト

· 電話番号/ FAX番号

· 空室率

· 部屋タイプ

· 画像

· ...

一言で言えば、Webページ上で見える限りの情報は全て抽出することができます！

どこからデータを取得できますか？

TripAdvisor.com、Booking.com、Expedia.com、Trivago.com、Travelocity.com、Hotwire.comを含むよく知られているホテル予約サイトがたくさんあります。各Webサイトには世界中のホテルに関する多くの情報があります。

ホテルの情報を収集する理由は？

· ホテルの料金を監視する

競合他社の情報を把握すると、特に競争が激しい宿泊施設サービスには、より有利に市場に対応することができます。ホテル、民宿の予約サイトが普及しているとともに、料金、評価を比較して次最もお得なホテルを見つけるのは簡単になります。そのため、即時に部屋の料金を調整すれば、売上がぐーんと伸びます!

· 空室率を予測する

部屋がいつ一番売れているのかいつ空室が最も多いのかを予測することは価格戦略の重要な要素です。特に休暇の時。観光シーズンには値段を上げり、闲散期はに部屋を安くしておくことは必要です。

· ブランドマネジメント

ホテルを予約する前にホテルの口コミ評価を読みますか？私は参考します。レビューやコメントは、観光客の意思決定において非常に重要な要素になっています。カスタマーエクスペリエンスが売上高に影響を与えることは間違いありません。レビューとコメントを収集して分析することで、顧客がホテルやサービスにどのように感じているかを把握でき、より良いサービスを提供できる側面についての洞察を得ることができます。

そしてもっと多くのこと...

· ホテルのお得な情報を了解する

· シーズンごとの料金変化を分析する

· 旅行ディレクトリサイトを構築する

· マーケティング戦略を作成する

· 見込顧客を発掘する

情報を取得する良い方法は？

ホテルのリストとレビューをスクレイピングするにはいくつかの方法があります：

· プログラミング - 強力だが長い学習に時間がかかる。

· 自動スクレイピングツール - 簡単に利用でき、費用効果が高い。

· 情報収集代行サービス - 何もせずに情報が入手できるが、コストがかかる。

スクレイピングツールの利用を検討すべき理由は？

プログラミング知識なし、低コストで情報を収集したいなら、Octoparse 、Dexi.io、Parsehub、およびImport.ioのような自動スクレイピングツールは良い選択肢となります。

· コードを書く必要なし - プログラミング知識を学ぶ必要はなく、ソフトウェアをダウンロードするだけで使えます。

· 使いやすい - より直感的なグラフィカルユーザーインターフェイスを提供し、視覚的に理解しやすく、簡単に使えます。あらゆる種類のWebサイト（AJAX、Behind-login、Javascriptなど）に対応できます。

· コスト効率 - 無料版があります！

さて、ホテル向きのWebクローラーを作りましょう！

ここでは、自動スクレイピングツールOctoparse を使ってホテルのWebクローラーを構築する方法を説明します。市場のすべてのツールの中でも、Octoparseは、自由で柔軟なWebスクレイピングツールとして、強くをお勧めします。

1996年にアムステルダムに設立されたBooking.comは、世界最大の宿泊予約サイトで、オンライン宿泊、航空券予約、自動車のレンタルなどを提供しています。Booking.comを例に挙げて、技術的背景なしにWebクローラーを構築し、Web情報を抽出する方法を説明します。

取得するデータフィールドは次のとおりです。

· ホテル名

· 料金

· 住所

· 評価

· 画像のURL

データの抽出は非常に簡単で、Octoparseで数回のクリックしか必要としません。わずか3ステップで、ホテルの情報を抽出することができます：

ステップ1.すべてのページからホテルの情報を抽出します。

まず、Octoparseの内蔵ブラウザでターゲットページを読み込みます。利用可能なすべてのページから収集するには、次へのボタン「>」をクリックして、「Action Tips」の「loop click the selected link」を選択します。そうすると、クローラーは、利用可能なすべてのページから情報を抽出します。

ステップ2.各ホテルの詳細ページをクリックします。

すべてのタイトルが選択されるまで（選択されたアイテムは緑色で強調表示される）、リストページのホテルのタイトルを1つずつクリックし、「Action Tips」の「Loop click each element」を選択します。Octoparseは、ページから利用可能なすべてのリストをクリックするように指示されています。次に、ホテルの詳細ページに到着したはずです。

ステップ3.必要なデータを選択します。

必要なデータフィールドをクリックします（例では、ホテル名、評価、住所が選択されています）。

ここでは、ホテルのWebクローラーはほぼ完了です。これからはタスクを実行して、必要なデータを抽出することだけです。

Booking.comからの情報抽出の詳細については、このチュートリアルをご覧ください。また、Tripadvisor 、Airbnbからホテルの情報を抽出する方法もご覧いただけます。

まとめ

世界観光経済の急速成長に伴い、これらの旅行サイトの多くは持続的な成長し、より多くのデータを蓄積することは間違いありません。アルファベットのCFOルース・ポラット氏は「リーダーとして最も貴重なものは明確なデータです」と述べました。データの価値を理解して、自分で試してみてはいかがでしょうか？

2018-10-10

機械学習に知っておくべき8つの用語

知識

近年、機械学習に関する記事、ニュースなどで耳にした方もいると思いますが、それが本当に何かを知っていますか？簡単に言えば、人の仕事がロボットに置き換わってくるテクノロジーの一つが機械学習です。先日機械学習に知っておくべきアルゴリズムを10つを紹介しました。今回は機械学習に最も関連する8つの用語を紹介します。

この記事で紹介される8つの用語は次のとおりです。

自然言語処理（NLP）
データベース
コンピュータビジョン
教師あり学習
教師なし学習
強化学習
ニューラルネットワーク
過剰適合（過学習）

1.自然言語処理（NLP）

自然言語は、人間がお互いにコミュニケーションを行うために自然発生しました。自然言語処理とは、私たちが日常的に使っている言葉（自然言語）をコンピューターに処理させる一連の技術のことです。自然言語処理は機械学習に一般的な概念で、人工知能（AI）と言語学の一分野です。

自然言語処理の最もよく知られている応用技術は次のとおりです。

（1）文書分類

これは、文書を異なるカテゴリに分類すること、または関連性に基づいて文書のリストを整理することです。たとえば、迷惑メール（迷惑メールかどうかを分析する）を判断することも、ビジネスの方で、競合他社に関する情報を抽出することもできます。

（2）感情分析

感情分析により、コンピュータは、文書を分析することによって、喜び、怒り、悲しみなどの感情を解読することができます。これは、顧客満足度調査で広く使用されており、顧客が製品に対する感情を分析します。

（3）情報抽出

これは主に、要約を作成するのと同じように、長い段落を短いテキストに要約するために使用されます。

（4）固有表現抽出

固有表現抽出は、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を抽出する技術です。固有表現抽出は、質問応答システム、対話システム、情報抽出といった自然言語処理を用いた応用アプリケーションの要素技術としても使われています。

（5）音声認識

音声認識とは、人間の声などをコンピューターに認識させることです。話し言葉を文字列に変換したり音声の特徴をとらえて声を出している人を識別したりする機能を指しています。AppleのSiri、自動音声入力などは素晴らしい例です。

（6）自然言語の理解と生成

自然言語理解（NLU）は、コンピュータに自然言語を理解（読解）または意図を抽出させるという試みです。逆に、自然言語生成は、知識ベースや論理形式などの機械表現系から自然言語を生成することです。この技術は、人間とロボットとのコミュニケーションに非常に一般的に使用されています。

（7）機械翻訳

機械翻訳は、コンピューターを利用してテキストを別の言語（または特定の言語）に自動的に翻訳することです。ここ2年、機械翻訳の精度が大幅に改善しています。2016年末頃、Google翻訳の翻訳精度が飛躍的に向上し、大きな話題となりました。それまでは、英語を日本語に翻訳すると不自然な文章になってしまうことも多かったのですが、現在では、より自然な日本語の翻訳結果を得られるようになっています。

2.データベース

データベースは機械学習に必要な部分です。機械学習システムを構築する場合は、オープンソースのデータセットからデータを収集するか、新しいデータを生成する必要があります。機械学習に使用されるすべてのデータセットが結合されてデータベースを形成します。一般に、科学者はデータを3つのカテゴリに分類します：

トレーニングデータ：トレーニングデータは開発した機械学習アルゴリズムに与えてモデルのトレーニングに使うデータセットです。トレーニングを通じて、機械学習モデルはデータの重要な特徴を認識することができます。

バリデーションデータ：バリデーションデータは、モデルのハイパーパラメータを決めるためのデータで、最適なモデルを選ぶために使用されます。バリデーションデータはトレーニングデータとは異なり、トレーニングセクションで使用することはできません。また、過剰適合が発生し、新しいデータ生成に悪影響を与える可能性があります。

テストデータ：テストデータはトレーニングデータとバリデーションデータとを合わせたデータで構築された、モデルの推定性能を、最終的に検証するためのデータです。

伝統的な機械学習では、これらの3つのデータセットの比率は50/25/25です。しかし、一部のモデルでは調整があまり必要ない場合や、トレーニングデータが実際にトレーニングと検証（クロスバリデーション）を組み合わせることができるため、トレーニング/テストの比率は70/30になる可能性があります。

3.コンピュータビジョン

コンピュータビジョンはコンピューターに取り入れた生の画像情報を処理して、必要な画像情報を取り出す技術です。コンピュータビジョンで以下の技術がよく見られます。

画像分類：画像分類とはコンピュータに特定の画像から情報クラスを抽出するタスクのことを指します。たとえば、特定の場所に登場する特定のものを認識するようにモデルをトレーニングします。画像分類された結果のラスターは主題図の作成に使用することができます。

目標検知：目標検知は、一連の事前定義されたカテゴリから特定のクラスを検出するようにモデルを教え、矩形でそのクラスを標記することです。例えば、目標検知は顔認識システムの構成に使えます。モデルは事前定義されたものをすべて検出し、それらを強調表示できます。

画像分割：画像分割は、デジタル画像をいくつかの小領域（スーパーピクセルとも呼ばれるピクセルのセット）に分割するプロセスです。分割の目的は、画像の表現をより分かりやすく分析しやすいものに簡単化して、応用する事ができるようになります。

有意性検定：研究データまたは統計データを収集したら、統計的推論により、アナリストは、サンプルが採取された母集団についての証拠または一部の主張を評価することができます。サンプルデータに基づいてクレームを支持または拒否するために使用される推論の方法は、有意性検定として知られています。

4.教師あり学習

教師あり学習は、学習データに正解ラベルを付けて学習する方法です。例えば、花の名前を教えてくれるAIを作るのなら、学習データ（画像）に対して、これは「バラ」、これは「ボタン」というようにラベルを付けて学習させます。機械学習を実利用する際は、多くの場合この教師あり学習を用います。

5.教師なし学習

一方、教師なし学習は、学習データにラベルを付けないで学習する方法です。2012年にGoogleが猫を認識できるAIを作成したことが大きなニュースになったのは、それが教師なし学習だったからです。Web上の画像や動画をラベルなしで1週間読み取るうちに、AIが自律的に「猫」というものを認識するようになりました。これは、幼児が毎日いろいろなものを見るうちに、自然と「こういうものが猫ってものか」と認識してゆくのに似ています。

6.強化学習

強化学習とは、試行錯誤を通じて「価値を最大化するような行動」を学習するものです。よく知られている例はAlphaGoです。2016年にGoogleのAlphaGoというAIが韓国の囲碁プロ棋士を破ったという大きなニュースがありましたね。実は、これは強化学習を使って強くなりました。囲碁のように、必ずしも人間に正解がわかるわけではない場合でも学習できるので、人間を超える力を身につけることが期待されています。最近では、リアルタイムの入札にも強化学習が適用されています。

7.ニューラルネットワーク

ニューラルネットワークは、人間の脳神経系のニューロンを数理モデル化したものの組み合わせのことです。人工ニューラルネットワーク（ANN）は、多くのニューロンが相互接続してネットワークを形成する脳のように、多くの層で構成されています。すべての層は、一連のニューロンの集まりです。ANNはデータを連続して処理することができます。つまり、最初の層のみが入力に接続され、層が増加すると、ANNはより複雑になります。層が大きくなると、モデルは深層学習モデルになります。10年前、3層しかないANNは十分深く、現在は通常20層が必要です。

ニューラルネットワークには多くのバリアントがありますが、一般的に使用されるものは次のとおりです。

畳み込みニューラルネットワーク - 画像や動画認識に広く使われているモデル
再帰型ニューラルネットワーク - 株価などの時系列データを扱うことのできるモデル
確率的ニューラルネット - 乱数による確率的な動作を導入したモデル

8.過剰適合（過学習）

過剰適合とは、統計学や機械学習において、トレーニングデータに対して学習されているが、テストデータに対しては適合できていない、汎化できていない状態を指します。機械学習の分野では過学習とも呼ばれます。

過剰適合の概念は機械学習でも重要です。通常、学習アルゴリズムは一連のトレーニングデータを使って訓練されます。つまり、典型的な入力データとその際の既知の出力結果を与えます。学習者はそれによって、トレーニングデータでは示されなかった他の例についても正しい出力を返すことができるようになると期待されます。しかし、学習期間が長すぎたり、トレーニングデータが典型的なものでなかった場合、学習者はトレーニングデータの特定のランダムな（本来学習させたい特徴とは無関係な）特徴にまで適合してしまいます。このような過剰適合の過程では、訓練データについての性能は向上するが、それ以外のデータでは逆に結果が悪くなります。

まとめ

機械学習の分野は実際紛らわしい世界です。非常に多くのアルゴリズム、非常に多くの問題があります。用語もたくさんありすぎます。今回は機械学習に出てくる基本的な用語について纏めましたが、如何でしたでしょうか。機械学習に興味がある方は、本記事に是非目を通してください。