2018-09-29

機械学習に知っておくべき10のアルゴリズム

知識

「ビッグデータ」という言葉は2017年に普及し、ハイテク業界で最も人気が高まってきています。前回の記事では、ビッグデータ、機械学習、データマイニングの概念を簡単に紹介しました（参照記事：「5分で分かる！ビッグデータ、機械学習、データマイニングの意味」）。

コンピュータに過去のデータを分析させ、未来のデータを予測させる機械学習は身近なところに広く活用されています。機械学習を専門としないエンジニアでも活用できるようになりました。この記事では、最も一般的に使用される機械学習アルゴリズムをいくつか紹介したいと思います。

この記事で紹介されるアルゴリズムは次のとおりです。

決定木
ランダムフォレスト
ロジスティック回帰
サポートベクターマシン（SVM）
ナイーブベイズ分類器
k近傍法
k平均法
アダブースト
ニューラルネットワーク
マルコフ連鎖

1. 決定木

決定木は、条件分岐によってグループを分割して分類する手法です。その際にグループがなるべく同じような属性で構成されるように分割します。下の画像を見るとより理解しやすいと思います。

このように条件分岐を繰り返すことで、データはツリー状にどんどん展開され、解くべき最小単位に分割されていきます。

2.ランダムフォレスト
ランダムフォレストとは、分類や回帰に使える機械学習の手法です。決定木をたくさん作って多数決する（または平均を取る）ような手法です。ランダムフォレストは大量のデータを必要としますが、精度の高い予測/分類を行えるという特徴があります。

例を見てみましょう：

学習データ：[X1、X2、X3、... X10]があります。以下に示すように、ランダムフォレストは、バギング（bootstrap aggregatingの略です）を使って、データセットを3つのサブセットに分割し、サブセットからデータをランダムに選択して3つの決定木を作成することができます。最終出力は多数決（分類の場合）または平均値（回帰の場合）を決定します。

3.ロジスティック回帰
ロジスティック回帰は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種です。予測対象の確率Pが0<P<1であれば、普通の線形モデルでは満たすことができません。定義域が一定のレベル内にない場合、その範囲は指定された間隔を超えます。

以下はロジスティック回帰モデルと線形モデルの形です。

ロジスティック回帰は一般に以下のような場面で実際に使われています。
・クレジットスコアリング
・マーケティングキャンペーンの成功率の測定
・特定の製品の収益予測
・特定の日に地震が起こるか否かの予測

4.サポートベクターマシン（SVM）
サポートベクターマシンは、教師あり学習を用いるパターン認識モデルの一つで、線形入力素子を利用して2クラスのパターン識別器を構成する手法です。

SVMでは、下図のように、2つのグループ間の最も距離の離れた箇所（最大マージン）を見つけ出し、その真ん中に識別の線を引きます。

図の例では、オレンジ色の線より、緑色の線の方が両者を隔てる幅が広いため、適切な線と言えます。

適切に実装されたSVMが解決できる問題は、ディスプレイ広告、人間スプライスサイト認識、画像ベースの性別検知、大規模な画像分類などとされています。

5.ナイーブベイズ分類器

ナイーブベイズ分類器は特徴間に強い（ナイーブな）独立性を仮定した上でベイズの定理を使う、確率に基づいたアルゴリズムです。

この画像はベイズの定理を表しており、P（A | B）は事後確率、P（B | A）は尤度、P（A）は分類クラスの事前確率、P（B）は予測変数の事前確率です。ナイーブベイズは主にテキスト分類などに使われ、メールのスパム/非スパム判定、テキストの肯定的/否定的な感情チェックやWebに投稿された記事のタグ付けなどに活用されます。

6.k近傍法
k近傍法は、特徴空間における最も近い訓練例に基づいた分類の手法であり、パターン認識でよく使われます。k近傍法は、機械学習アルゴリズムの中でも簡単なアルゴリズムと言われております。理由は、インスタンスの分類を、その近傍のオブジェクト群の多数決で行うことで決定するからです。

例えば下図の場合、クラス判別の流れは以下となる。

１.既知のデータ(学習データ)を赤の三角形と青の四角形としてプロットしておく。
２.Kの数を決めておく。K=1とか。
３.未知のデータとして緑の丸が得られたら、近い点から1つ取得する。
４.その1つのクラスの多数決で、属するクラスを推定。
今回は、未知の緑の丸はClass 1に属すると推定します。
※Kの数次第で結果が変わるのでご注意ください。K=3にすると、緑の丸はClass 2と判定されます。

7.k平均法
k平均法は、クラスタリングと呼ばれる、データを性質の近い分類同士でグループ分けするためのアルゴリズムのひとつです。クラスタリングの最も簡単な手法の一つであり，教師なし学習です。ここではk平均法の原理を少し説明します。

ステップ1：クラスターの「核」となるk個のサンプルを選ぶ。（ここでは5個）

ステップ2：全てのサンプルとk個の「核」の距離を測る。

ステップ3：各サンプルを最も近い「核」と同じクラスターに分割する。（この時点で全てのサンプルがk種類に分けられた）

ステップ4：k個のクラスターの重心点を求め、それを新たな核とする。（ここでは重心点の位置が移動している）

ステップ5：重心点の位置が変化したら、ステップ2に戻る。（重心が変化しなくなるまで繰り返す）

ステップ6：重心が変化しなくなったので終了する。

8.アダブースト

アダブーストはランダムよりも少し精度がいいような弱い識別機を組みわせて、強い識別機を作成しようとする機械学習モデルです。

作り方の流れは、まず、弱い識別機の適用させ、誤分類してしまったものの重みを増やし、そして、次にその重みがついたものを優先的にみて、分類する。ということを繰り返します。
下記の図を参考にするとわかりやすいです。

上記の図では、最初にD1で弱い識別機を使って、分類し、D2で誤分類した '+'1個と'-'2個の重みを増やしています。次にその誤分類された３つを優先的に考えて、また分類しています。ここで、重みを増やすのと同時に、正確に分類された他のものの重みは減っています。さらに、D3では、D２で誤分類された'-'３個の重みを増やすと同時に他のものの、重みは減っています。その繰り返し行った分類の重みを元に、強い識別機というものを作ります。

9.ニューラルネットワーク
ニューラルネットワークとは、人間の脳神経系のニューロンを数理モデル化したものの組み合わせのことです。

これは、ニューロンの振る舞いを簡略化したモデルです。人工のニューラルネットワークは生物学的な脳とは異なり、データの伝達方法は事前に層、接続、方向について個別に定義され、それと異なる伝達はできません。

ニューラルネットワークは、一つの層のすべてのニューロンが次の層のニューロンに接続するような一連のニューロンの層で構成されています。

したがって上の図は、1つの隠れ層を持つ2層のニューラルネットワークです。詳しく見ると、3つの入力ニューロンと、隠れ層に2つのニューロン、2つの出力ニューロンで構成されています。

計算は次の順に行われます。左の入力層から開始し、そこから値を隠れ層に渡してから、隠れ層は出力層に値を送り最終出力となります。

10.マルコフ連鎖
マルコフ連鎖は、一連の確率変数 X1, X2, X3, ... で、現在の状態が決まっていれば、過去および未来の状態は独立であるものです。
マルコフ連鎖の具体例として，以下のようなモデルを考えます（確率はかなり適当ですがマルコフ連鎖の理解には役立ちます）。

昨日以前の天気は翌日の天気に影響しない。
今日晴れ→翌日晴れる確率は 0.7，曇の確率は 0.3，雨の確率は 0
今日曇→翌日晴れる確率は 0.4，曇の確率は 0.4，雨の確率は 0.2
今日雨→翌日晴れる確率は 0.3，曇の確率は 0.3，雨の確率は 0.4

このモデルは図のように表現することができます。このような図を状態遷移図と言います。

まとめ

機械学習のスキルを持つエンジニアは企業からのニーズが高く、スキルを習得できれば大きな武器になることでしょう。アルゴリズムを完璧に理解するためには高度な数学的理解が求められますので、いろいろな勉強が必要です。今回ご紹介したのはただ浅いものですが、機械学習へ興味をお持ちになった方は是非ご参照ください。

2018-09-26

動的Webサイトからリアルタイムデータを取得する

データ取得

データ多様化、情報技術の革新といった時代的背景に、ソーシャルメディアなどによってもたらされる動的データをリアルタイムに分析、価値を最大限に引き出す動きが盛り上がりを見せています。

この記事では、次の質問に答えます：

- なぜ動的データの取得は重要なのか？

- 動的データはどのようにビジネス開発を効果的に促進するの？

- どのように動的データを簡単に取得できる？

なぜ動的データの取得は重要なのか？

一般的に、動的データを引き続き監視することで、よりよく見え、より速く行動できます。具体的に言えば、動的データを取得するで次のことができます。

データ駆動型の意思決定の迅速化を実現する

動的データを取得することで、市場や競合他社の新しいトレンドに関するリアルタイム情報が得られます。更新された情報の活用は原因と結果の時間差を大幅に短縮することができます。言い換えれば、データに基づく洞察力が得られ、より迅速なデータ駆動型の決定を容易に実現できます。

AmazonのCEO、Jeff Bezosは「ビジネスにはスピードが重要だ」と言いました。「高速度意思決定」は、ビジネス開発にとって非常に重要です。

より強力なデータベースを構築する

今日のデジタル世界でデータ量が増え続けるにつれて、データに結びついた価値は劇的に低下しています。データ分析の質と意思決定の価値を向上させるために、企業は動的データを連続的に抽出することによって、広範囲のデータベースを構築する必要があります。

データは時間に敏感な資産です。情報が古ければ古いほど、収集するのが難しくなります。毎年データの量と更新スピードが倍増するにつれて、変化するデータを追跡して分析することは非常に重要になります。

一般的に、短期間のデータ収集は、最近の問題を解決し、小さな意思決定に役立ちますが、長期的なデータ収集は、未来の発展トレンドを把握、長期的なビジネス目標を設定するのに役立ちます。

適応性ある分析システムを確立する

データ分析の究極の目的は、適応型で独立のデータ分析システムを構築することです。そうすると、継続的に問題を分析することができます。適応性ある分析システムは動的データを自動的に収集することに基づいていることは間違いありません。この場合、毎回分析モデルを構築する時間を節約でき、ループ内の人的要因を排除できます。自動運転車は、適応分析ソリューションの素晴らしい例です。

動的データはどのようにビジネス開発を効果的に促進するの？

以下を含む多くの面で動的データ分析を適用して、ビジネス開発を促進することができます。

商品の監視

価格、説明、レビュー、画像などの商品情報は、すべてオンラインマーケットプレイスで入手でき、時折更新されます。たとえば、Amazonで商品情報を検索したり、eBayから価格をスクレイピングしたりすることで、プレリリースの市場調査は簡単に行うことができます。

動的情報を抽出することで、製品の競争力を評価し、価格設定や在庫管理の戦略を効果的に作成することができます。これは競合他社の行動を監視できる信頼性の高い有効な方法となります。

顧客経験管理

企業における顧客経験管理はますます重要性が高まります。ガートナー社の定義によって、それは「顧客の期待どおりの、または期待を超える顧客対応（顧客との交流や対話）を設計・提供することにより、顧客の満足度、ロイヤルティ、支持を向上させる取り組み」というものです。

たとえば、Amazonの製品に対するすべてのレビューを抽出することで、正と負のフィードバックを分析して、顧客がこの製品についてどのように感じているかを知ることができます。これは、顧客のニーズを理解し、顧客の満足度をリアルタイムで知ることに役立ちます。

マーケティング戦略

動的データの分析により、過去にどの戦略が最も効果的か、現在のマーケティング戦略はうまく機能しているか、どのような改善が行われているかを知ることができます。動的データを抽出することで、マーケティング戦略をリアルタイムで評価し、それに応じて正確な調整を行うことができます。

どのように動的データを簡単に取得できる？

動的データをリアルタイムで連続的に収集するために、従来の手動コピーペはもはや実用的ではありません。この場合、使いやすいWebスクレイピングツールが最適な解決策かもしれません。以下の利点があります。

コードを書く必要なし

Webスクレイピングツールを使うと、プログラミングに関する知識は必要ありません。Webサイトからの動的データのスクレイピングは、誰でも容易に実現できます。

全てのWebサイトに対応

異なるWebサイトは異なる構造を持っているので、経験豊富なプログラマでもスクリプトを書く前にサイトの構造を調べる必要があります。しかし、強力なWebスクレイピングツールを使うと、異なるWebサイトからデータを簡単に抽出でき、時間を大幅に節約できます。

抽出作業を予定できる

これには、ローカルマシン上での実行のみではなく、クラウド操作をサポートするWebスクレイピングツールが必要です。そうすると、スクレイピングスールは設定したスケジュールに従ってデータを自動的に抽出することができます。

Octoparse のクラウド抽出はそれ以上のことができます。

柔軟なスケジュール

Octoparseのクラウド抽出は、必要に応じていつでも任意の頻度でWebデータをスクレイピングすることをサポートします。

高速化の作業

同時に動作する6〜20台のクラウドサーバーでは、同じデータセットがローカルマシン上で実行するよりも6〜20倍高速になります。

コストダウン

Octoparse クラウド抽出は、スクレイピングツールの操作と動的データのクラウドへの格納をサポートし、高いハードウェア保守コストやネットワークの中断を心配する必要がありません。

さらに、類似のサービスと比較、Octoparseは50％もコストを削減し、データ分析の価値を向上させ、誰もがビッグデータを手頃な価格で入手できるようにしています。

APIとの接続

クラウドデータは自動的にOctoparseのデータベースにエクスポートできますが、APIを介して独自のシステムにエクスポートすることができます。

OctoparseにはOctoparse APIとAdvanced API 2種類があります。前者は、スタンダードプランにありデータ管理をサポートしています。後者はプロフェッショナルプランにあり、タスク管理とデータ管理をサポートしています。

今すぐOctoparseをダウンロードして、動的データを活用してビジネスの洞察力を強化しましょう！

2018-09-20

Twitterトレンド - 新しいiPhoneについて人々が何を話しているか？

データ取得

Appleは現地時間の9月12日朝10時、米国カリフォルニア州クパチーノにある本社で、iPhoneをはじめとする新製品の発表会を開催し、iPhoneは新たな3モデルiPhone（Xs、Xs Max、XR）と新たなApple Watchを発表しました。毎年、Appleの新製品発表イベントは間違いなく、ソーシャルメディアですぐ話題になり、面白いコメントがたくさん出てきます。だから私たちは、今年Appleのイベントについて人々が何のツイートしているのかを簡単なデータ分析をしようと思います。

#AppleEventというタグをつけているツイートを、スクレイピンツールでできるだけ多く抽出し、Apple製品について最も懸念されるの要点を見つけました。また、いくつかの面白いツイートを集めて、皆さんとシェアします。

抽出したツイート

調査結果を共有する前に、Twitterから抽出したデータについて説明します。

時間制限のため、#AppleEventのトピックから908件のツイート（もちろん908件以上があるはずです）を収集しました。各ツイートから抽出したデータには以下が含まれます：

· 名前

· 投稿時間

· コンテンツ

· 画像のURL

· ツイートのURL

· コメント、リツイート、いいねの数

（Gif：スクレイピンツールがデータを抽出している）

Twitterをスクレイピングすることに興味があるなら、今回使ったTwitterスクレイパーとTwitterをスクレイピングするのチュートリアルご参考ください。

ほとんどのツイートはイベント中に投稿された

抽出したツイートに、#AppleEventのタグ付きの最も早いツイートはアップルがiOS12を発表した＃WWDC18と一緒に6月4日にが投稿されました。

#AppleEventのツイートは9月12日に急に上昇ししました。下の折れ線グラフから、イベントにほとんどのツイートが、午前10時から夜12時まで投稿されたことを見えます。

一番言い及した新製品

収集したすべてのデータを調べ、すべてのツイートのキーワードを分析し、人々が言い及した各新製品の数を得ました。

最も使われる言葉

#AppleEventについてのツイートで最も使われている言葉をまとめてみました。

価格に関心を寄せる

アップルイベントの話題には、新しいiPhoneの価格に関するツイートが一番多いのはまったく驚くべきことではありません。

特にiPhone Xs Maxは、歴史的に最も高価なiPhoneとして、価格が1099ドルから、最高価格が1499ドルです。一部のメディアは、 AppleがiPhoneの入門価格を引き上げたことを明らかにしました。今年前よりも最新で最高のiPhoneを購入するには、消費者は少なくとも100ドル以上を支払う必要があるからです。

気になる唯一のアップグレード - より良いケーブル

価格に関するツイートに加えて、#AppleEventの下にある別の人気のトピックは、私が欲しい/気になるアップグレード - より良いケーブル。

人々が褒める新機能

当然のことながら、新しいiPhoneと新しいApple Watchに拍手する人々もいます。

人気ツイートトップ10

データ分析をしている時、たくさんのツイートは本当に面白いと思います。だからイベントに関する人気の高いツイートを10件上げられます。お楽しみに！

まとめ

多くのメディアや人々は毎年発表した新製品に満足していませんが、この1兆ドルの企業が領域を拡大する道を後押しすることはできませんでした。一年前と同じように、当時最も高価なiPhoneだったiPhone Xの価格にも色々な文句がありましたが、販売価格を引き上げることにとって、過去1年間でAppleの売上が大幅に増加しているのはそれが正しい戦略を判明しました。

歴史は再び繰り返されますか？いずれ分かるよね。

2018-09-18

Webスクレイピングを使ってデータ分析とインテリジェンスを向上する

Webスクレイピング

f:id:octoparse:20180918165623j:plain

「インターネットからのデータは使えますか？」という疑問がある人もいるかもしれません。今、インターネットが信じられないほどの情報を提供し、それがどれほど価値があるかを掘り下げることができることは間違いありません。これはWebデータのスクレイピングが出た原因です。自動コピペのプロセスであるWebデータのスクレイピングは、成長している分野であり、データ分析とインテリジェンスをサポートする強力な洞察力を提供することができます。

このブログでは、Webデータの収集によく出る活用例とデータマイニングツールについて説明します。さあ始めましょう。

どのようWebスクレイピングを活用しますか？

ビッグデータが多くの分野で役に立つことを知っている人がいますが、Webスクレイピングをどのように活用できるかを分からない人もいます。ここでは、実際の例

をいくつか紹介します。

1. コンテンツ集約

ほとんどのメディアサイトでは、Web上の最新トレンド情報に継続的に把握し、ニュースを迅速に生成することが重要です。Webスクレイピングにより、人気のあるニュースポータルやソーシャルメディアを監視し、キーワードやトピックの傾向を把握して最新情報を取得することができます。Webスクレイピングの力を借りて、更新頻度を非常に上げられます。先日の記事にもWebスクレイピングを活用して、コンテンツマーケティングを進める方法を紹介しました。興味がある方は是非ご覧ください。

2. 競合他社の監視

オンラインスビジネスの競争が激化したため、Eコマースは、通常、競合他社のリアルタイムデータを入手し、競争戦略を微調整する必要があります。Webスクレイピングにより、競合他社のプロモーション活動や更新された製品情報にかかわらず、競合他社の活動を深く監視することができます。これらの情報をスクレイピングして、分析した上で、製品の詳細や価格を適当に修正することができます。

3. 感情分析

ユーザーが作成したコンテンツ（UGC）は、感情分析プロジェクトの基本です。通常、このようなデータには、製品、サービス、音楽、映画、書籍、イベントまたはその他の消費者重視のサービスやイベントに関するレビュー、意見、苦情が含まれます。これらの情報はすべてWebクローラーを導入することで簡単に取得できます。

4. 市場調査

ほぼすべての企業が市場調査を行います。市場調査を行うには、Webから製品情報、タグ、ソーシャルメディアのコメント、レビュー、ニュースなどさまざまなデータを入手する必要があります。従来のデータ取得方法を使うなら、特に時間がかかります。い今まで、Webデータのスクレイピングは、市場調査に使う膨大な量の関連データを収集する最も簡単な方法です。

5. 機械学習

感情分析のように、利用可能なWebデータは機械学習の良い資料です。メタデータのフィールドや値から抽出したタグ付きのコンテンツは、自然言語処理のソースになるかもしれません。タグの統計とクラスタリングシステムは、カテゴリとタグ情報を用いて行うことができます。Webスクレイピングは、データのより効率的かつ正確に取得するのに役立ちます。

Webスクレイピングのツールと方法

Webからデータを抽出する最も良い方法は、データスクレイピングプロジェクトをDaaS企業に委託することです。DaaS企業は、データ抽出に必要な専門知識とクローリングシステムを持つため、ご要望のデータを完壁に取得できます。でもDaaS企業に委託するのはかなりお金がかかるので、予算が少ない会社にとっては多分難しいです。

中小企業の多くは、大企業のように多くの予算を使えるわけではないことがほとんどです。その予算が少ないまたは限られている場合、Webスクレイピングのは、自分でWebスクレイパーを構築することはいい方法です。WebスクレイパーのほとんどはPythonで書かれていて、データ収集のプロセスを簡単します。しかし、ほとんどの人にとってそれは容易ではありません。プログラミングの知識が必要だし、スクレイパーを構築するときには、色々な複雑のことを処理する必要があります。

実は、もうひとつのより便利な方法があります----Webスクレイピングツール使う！以前のブログにはたくさんのWebスクレイピングツールを紹介しました。例えば、「デキる人は知っている！Webスクレイピング用のソフト30選」です。しかし、すべてのツールに長所と短所があり、完璧なツールはありませんので、自分の必要に応じて、適当なツールを選択します。非プログラマ向けに作成されたOctoparseとMozendaは、他のスクレイピングツールよりも使いやすいです。いくつかのチュートリアルを参考することで使えるようになります。

まとめ

ビッグデータが重要視されている今、データ分析とインテリジェンスのニーズはビジネスやマーケティング分野で高まりを見せています。Webデータのスクレイピングなどのテクノロジーを活用して多様なデータから知見を引き出し、業務改善に活用しましょう！

2018-09-14

Webスクレイピングでコンテンツマーケティングを進める！

Webスクレイピング

ここ数年、新たなマーケティング手法として「コンテンツマーケティング」が注目されています。アメリカのコンテンツマーケティング研究所（以下CMIを略します）はによりますと、88％のB2B企業はコンテンツマーケティングを実施しているそうです。コンテンツマーケティングを実施する企業が増えてきていますが、どのようなコンテンツを作ればいいかわからないといった方も多いのではないでしょうか。今回は、コンテンツマーケティングの基礎から、実際に使えるWebスクレイピング手法ご紹介します。

コンテンツマーケティングとは？

コンテンツマーケティングとは、ターゲットになる見込み顧客に、価値あるコンテンツを適切なタイミングで提供し続け、購買行動を起こさせるための一連の手法です。単なるマーケティングキャンペーンではなく、継続的なビジネスプロセスとして運用する必要があります。

コンテンツマーケティングの定義におけるキーワードは「価値ある」であり、従来のマーケティングと区別されます。顧客にとって価値あるコンテンツは、有益で教育的でなければなりません。

それにもかかわらず、コンテンツマーケティングの目的は、Webサイトへのアクセス数を増やすこと、または製品に注意を引きつけ、コンバージョン率を向上させ、最終的に利益を生み出すことです。具体的には、ブランドの認知を拡大、ブランドのファンを育成、リピートを促進することで企業の成長を支援します。

コンテンツマーケティングの「コンテンツ」とは？

そもそもコンテンツマーケティングの「コンテンツ」とは何ですか？コンテンツは主にデジタルコンテンツを指します。コンテンツのフォーマットは、記事、画像、オーディオ、ビデオ、イベントなどの共通コンテンツと対話型ツール、電子書籍/白書、Webセミナーなどの高級コンテンツが含まれます。

配信方法から見ると、コンテンツはブログ、ソーシャルメディアの投稿、Webページ、電子メール、ポッドキャスト放送、ビデオ、Live放送で構成されています。CMIによると、以下は企業がよく使う10種類のコンテンツです。

コンテンツの制作手法という面から、コンテンツは次のように分類できます。

「BGC」（Brand Generated Content）：ブランドにより制作されたコンテンツです。BGCは社内のコンテンツチームに基づいて、製品やブランドに関する貴重な情報を聴衆に提供し、ブランドの知名度を高めます。

「PGC」（Professionally Generated Contents）：プロにより制作されたコンテンツです。コンテンツの制作に専門知識を持つ機関やKOLが携わり、製品/ブランドの情報を広範な聴衆に伝えます。

「UGC」（User Generated Contents）： ユーザーにより制作されたコンテンツです。UGCはすべての企業のターゲットであり、顧客がブランド支持者になっているからです。購買意思決定の際にUGCが役立つと感じている消費者は93％います。

今、コンテンツマーケティングの基礎を了解しました。これからの課題はどのようにコンテンツマーケティングを成功することです。次、Webスクレイピングがコンテンツマーケティングの成功にどのように貢献しているかをご説明します。

Webスクレイピングとは？

Webスクレイピングは、Webサイトからの情報を自動抽出、集約する方法です。Webデータの爆発的な増加に伴い、Webスクレイピングは企業のデータベースを構築する不可欠な手法になっています。

プログラミング、Googleスプレッドシートなどの経由で、Webサイトからデータをスクレイピングする方法はたくさんあります。プログラミング知識のないマーケティング担当者にとっては、最も効率的な方法は、使いやすいWebスクレイピングツールを利用することです。

なぜWebスクレイピングが必要なのか?

ほとんどのマーケティング担当者がコンテンツマーケティングに直面している3つの困難に取り組むことで、この質問に答えます。

コンテンツが目立たない

平均的に、毎秒約6,000のツイートがTwitter上で投稿され、854枚の写真がInstagramにアップロードされます。毎分約300時間の動画がYouTubeにアップロードされます。今のデジタル世界に、様々なコンテンツから目立つのは企業の最大課題です。抜群の効果を得るコンテンツはきっと高品質なものです。84％のB2B マーケティング担当者は、コンテンツマーケティングの成功が高品質のコンテンツ制作にあると考えています。高品質のコンテンツを制作するには、より多くの情報を収集しなければなりません。そこで、Webスクレイピングの出番です。

技術知識がない

30％以上のマーケティング担当者は、技術知識がないため、コンテンツマーケティングが停滞していると考えています。データに基づくコンテンツを制作する時、より多くの情報を収集するため、Webスクレイピングしないことはほとんど不可能です。Webデータを集約する重要なリソースであり、データ分析の前提とするWebスクレイピングは技術の一種で、プログラマーや技術知識持つ人がしかできず、技術知識のないマーケティング担当者にとっては非常に難しいです。幸いに、ビッグデータ時代には、たくさんの自動化ツールがあります。Webスクレイピングツールを使って、非技術者でも簡単に必要なWebデータを抽出することができ、マーケティング担当者にも学習負担をかけません。

予算が少ない

CMIの調査では、マーケティング予算全体のわずか22％がコンテンツマーケティングに費やされています。多くの企業では、複雑で高価なツールの導入に投資する予算は非常に限られています。Octoparse は、市場におけるトップ5のWebスクレイピングツールを分析しました。技術知識のないマーケティング担当者に提供される汎用機能を備えた無料のWebデータスクレイピングツールがあります。つまり、貴重な情報を収集するために必ずしも高価なツールに投資する必要はありません。

コンテンツの作成にはどのようにWebスクレイピングを活用しますか？

ターゲット顧客と共感するのコンテンツを制作場合にのみ、顧客の関心を惹かれます。したがって、Webスクレイピングが顧客インテリジェンスコンテンツの制作に役立つ方法についてお話します。

顧客を知る

彼を知り、己を知れば、百戦あやうからず。横並びで成長する時代は過ぎ、顧客に選ばれる企業だけが生き残る時代なのです。顧客が考えていることが何かがわかれば、マーケティング施策を考える上で大きな助けになるだろう。顧客のことをより理解する以上、共感するコンテンツを作ることができます。

そこで、Amazonから製品レビューを取得したり、製品/関連に関する人々のトピックをTwitterから抽出したりすることができます。このように、ターゲット顧客の関心を持ってコンテンツを見つけることができます。

業界内の新しいトレンド/人気トピックをフォローする

これはマーケティング担当者がコンテンツを制作する上で不可欠なスキルです。もちろん、Buzzsumoのようなツールを使って最も人気のあるコンテンツを教えてもらえますが、その無料版では過去1年間のデータしか検索できません。このくらいだと足りません。

より効率的な方法はカスタマイズされたWebスクレイパーを構築し、対象Webサイトから必要とする情報を自動スクレイピングし、独自のシステムに抽出されたデータを自動導入することです。これは一度限りの解決策であり、新しいトレンドや人気トピックをリアルタイムで把握することができます。

データの可視化によるコンテンツの充実

間違いなく、データは論点を支える最も強力な証拠です。データアナリティクスの結果を表示したり、図表でコンテンツを説明したりすることで、説得力と信頼性が大幅に向上します。ただし、ネット上のデータは膨大で分散な存在で、それらのデータを収集、整理、加工、分析するにも時間がかかります。ですから、スクレイピングツールを使ってそのプロセスを加速することができます。

私もその方法で、たくさんのコンテンツを作りました。それに、このような記事は特に人気があります。たとえば、「疑問に答えます！なぜWebスクレイピングを学ぶのか？」と「2018 FIFAワールドカップYoutubeでのコメントを可視化する」などです。

まとめ

今のコンテンツマーケティングに満足していますか？コンテンツマーケティングを成功させるためには色々工夫しなければなりません。企業やマーケティング担当者にとってチャンスとチャレンジの両方をもたらします。企業はコンテンツマーケティングの戦略を確立し、マーケティング担当者はWebスクレイピングツールを活用して、コンテンツの制作の効率を改善する必要があります。Webスクレイピングでコンテンツマーケティングを進めよう！

2018-09-06

疑問に答えます！なぜWebスクレイピングを学ぶのか？

Webスクレイピング

Webスクレイピングとは？

Webスクレイピングは、Webサイトから情報を抽出し、その情報を分析可能な構造化データに変換するプロセスです。Webスクレイピングは、Webデータ抽出またはスクリーンスクレイピングとも呼ばれます。膨大なデータがインターネット上で利用可能になっているため、Webスクレイピングはビッグデータセットを集約する不可欠な手法になっています。

それでは、なぜWebスクレイピングを学ぶのか、誰がWebスクレイピングをしているのですか？今回はWebスクレイピングスキルを必要とするさまざまな業種や仕事を調べることによって、この問題に取り組んでいきます。調査を行うため、 Indeed、Glassdoor、LinkedInなどの求人サイトからデータを抽出し、いろいろと分析しました。最後に、GoogleとYoutubeを調査し、Webスクレイピングキルを必要とする仕事数とWebスクレイピング以外の要求を調べました。

さて、調査の結果を見てみましょう。そのプロセスに興味がある場合は、弊社のGitHub Repositoriesをチェックして、Webクローラーをダウンロードしてください。

発見 1: 54の業種がWebスクレイピングスキルを要求している

以下の統計は、LinkedInから収集された情報に基づいています。Webスクレイピングスキルの需要が最も上位10業種：コンピュータソフトウェア（22％）; 情報技術とサービス（21％）; 金融サービス（12％）; インターネット（11％）; マーケティングと広告（5％）; コンピュータ＆ネットワークセキュリティ（3％）; 保険（2％）; 銀行業務（2％）; 経営コンサルティング（2％）; オンラインメディア（2％）。

f:id:octoparse:20180906130625p:plain

石油とエネルギー ; 建築工事; 消費財; 防衛＆宇宙; 人材募集/採用; 病院＆ヘルスケア; 教育管理; 非営利団体管理; 医薬品; 出版; 研究; 電気/電子製造; 行政管理などの業種にもWebスクレイピングスキルを要求しています。

発見 2: 技術以外の職業がWebスクレイピングスキルを要求している

Webスクレイピングを必要とするほとんどの職業は、エンジニアリングや情報技術のような技術関連のものであることはもちろんです。

しかし、驚くことに、LinkedInの情報に基づいて、人材、マーケティング、ビジネス開発、研究、販売、コンサルティング、ライティング/編集などの仕事もWebスクレイピングスキルを要求しています。

f:id:octoparse:20180906130637p:plain

発見 3: 給与が高い職業トップ10

Glassdoorから収集された情報に基づいて、様々な職業の給与には25万ドルから203万ドルの大きな差があります。すべての職業の中で、高級データエンジニアとデータサイエンティストの給与が一番高いです。

f:id:octoparse:20180906130653p:plain

（以上のデータは、Glassdoorの職業の基本給与範囲の見積もりに基づい、実際の給与ではありません。）

収集した求人情報の中で、給与が低い職業は、政治レポーターと初級リクルーターで、それぞれは$ 25Kと$ 29Kからです。

発見 4: 給与が高い業種トップ10

また、Glassdoorから抽出された同じデータセットに基づいて、異なる業種間の平均給与を調べました。情報技術は第5位です。

f:id:octoparse:20180906130710p:plain

発見 5: Webテクノロ ジー企業にあるWebスクレイピング（Googleを例として）

すべての調査結果をまとめる前に、テクノロジーの最大手企業 - GoogleからWebスクレイピングに関する職業をすべて収集しました。Webスクレイピングの専門家にとってソフトウェアと情報技術会社が最大の市場であることは明らかです。

f:id:octoparse:20180906130730p:plain

Googleの子会社 - YouTubeは、規模やサービスがGoogleとは違いますが、異なる職位で高いレベルのWebスクレイピングスキルを要求しています。

f:id:octoparse:20180906130746p:plain

まとめ

技術的な職業とテクノロジー企業だけでなく、今のデジタル世界ではWebスクレイピングが不可欠なスキルになったと言えるでしょう。大規模なデータセットを編集することは、ビッグデータ分析、機械学習、人工知能の基本です。その同時に、デジタル情報の爆発的な増加に伴い、ビッグデータはこれまで以上にアクセスしやすくなっています。

Webスクレイピング自動化ツールはよりスマート、人気が高くなるにつれて、プログラミングの知識のない人でも、Webスクレイピングを手軽に適用できるようになり、ビッグデータを洞察して、ビジネスを強化します。

Webスクレイピングスキルを身につけたいが、Pythonなどのプログラミング言語を扱いたくない場合は、無料の自動スクレイピングツールOctoparseは良いオプションかもしれません。

2018-08-29

Webスクレイピングに不可欠！Xpathのまとめ

知識

f:id:octoparse:20180829115036j:plain

Octoparseを利用する時、要素をクリックすることでデータの位置が自動識別されますが、ページ遷移、データ取得などのステップにXpathを直す場合もあります。Octoparseを活用するには、XPathの知識は欠かせないので、今回はXPathについてまとめします。

XPathとは

XPath (XML Path Language)とは、XML形式の文書から、特定の部分を指定して抽出するための簡潔な構文(言語)です。HTMLもXMLの一種とみなすことができるため、HTML形式の文書にも対応します。Xpathは、WebスクレイピングでWebページの情報を取得する時によく利用します。

FirefoxとChromeで XPathを取得する

Firefox

Firefox使ってい場合、XPathを表示するには、プラグイン - 「Firebug」をインストールする必要があります。（注：FireBugは、Webページ上の任意の要素のHTML / SCCを簡単に検索して、Webページのデバッグと開発を簡単にするために使用されます）。

FirefoxでWebページを開き、Firebugボタンをクリックし、ページ内の要素をクリックして、そのXPathを取得できます。または、ページを右クリックするだけで、「Inspect in FirePath」オプションが表示されます。表示されているElementタブのhtmlで、要素を右クリックし、「Copy XPath」でその要素を取得するためのXPathがクリップボードにコピーされます。

Chrome

Chromeを使っている場合は、右クリックメニューの「検証」から開発者ツールを表示します。表示されているElementタブのhtmlで、要素を右クリックします。メニューの「Copy」→「Copy XPath」でその要素を取得するためのXPathがクリップボードにコピーされます。

XPathの書き方

Octoparseでは自動認識のXPathはブラウザでコピーしたXPathと同じです。しかし、XPathの表示式が多いので、多くのページを処理する時、このようなXPathは無効なる可能性があります。ですから、自分でXPathを書く必要があります。それではXPathの書き方を解説していきます。

まずXPathの書式を示します。

　軸::ノードテスト[式]

1.軸

軸は、ツリー上の位置関係を指定するものです。軸の代表的なものとして、以下のような種類があります。

軸	意味	省略記述
child::	子ノード	（何も書かない）
self::	カレントノード	.
parent::	親ノード	..
descendant-or-self::	すべてのノード	//
attribute::	属性ノード	@
ancestor::	祖先ノード
descendant::	子孫ノード
following::	起点より後に位置するノードすべて（子孫ノードを除く）
preceding::	起点より前に位置するノードすべて（祖先ノードを除く）
following-sibling::	起点より後に位置する兄弟ノード
preceding-sibling::	起点より前に位置する兄弟ノード

軸を簡略化して記述する場合は、軸とノードの区切り記号である「::」は省略します。

2.ノードテスト

ノードテストは選択するノードの型と名前を指定します。XML 文章内で特定のノードの位置を指定するための式をロケーションパスと呼びます。ロケーションパスは、URLのように『/』で要素を繋げて書きます。ロケーションパスには、現在位置のノードを起点として指定する「相対ロケーションパス」と、ルートノードを起点として指定する「絶対ロケーションパス」の2種類があります。

ロケーションパスには、厳密かつ詳細に記述する書き方と、簡略に記述する書き方（省略シンタックス）の2種類があります。

省略シンタックスの主な構文（ロケーションステップ）を以下の表に示します。

構文	意味
name	子要素nameまたは属性name。
/	ルートノードを選択します。
//	ルートノードの子孫ノードから要素ノード element を全て選択します。
.	カレントノード（現在位置のノード）を選択します。
..	カレントノードの親を選択します。
@	属性ノードを選択します。
*	指定したパスの直下の全ての子要素または属性。
text()	指定したパスの直下のテキストを選択します。指定形式：パス/text()
node()	指定したパスの直下のノードを選択します（属性ノードは含みません）。指定形式：パス/node()

3.式

式は軸::ノードで指定した条件をさらに細かく指定するために使用します。

ノードを限定するには node_name[2] のように番号を指定するか、 node_name[@attrib_name="value"] のように条件を指定します。条件指定はand ,orなどで複合できます。特定のノードまたは特定の値を指定する時、常に角括弧を使います。

XPathを試してみる

さて、XPathの書き方を了解した以上、いくつかの例を通して、XPathを書いてみましょう。

以下のXML文書を例として使います。

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>

<book category="cooking">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>

<book category="children">
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>

<book category="web">
<title lang="en">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>

<book category="web">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>

</bookstore>

例1・すべてのタイトルを選択する

/bookstore/book/title

例2・最初の本のタイトルを選択する

/bookstore/book[1]/title

例3・すべての価格を選択する

/bookstore/book/price

例4・カテゴリは「web」である本のタイトルを選択する

/bookstore/book[@category="web"]/title

まとめ

以上が、Webスクレイピングに便利なXPathのまとめでした！いかかでしょうか？

やや難しい文法説明も含まれていましたが、XPathは比較的覚えやすく理解しやすい言語ですので、ぜひ簡単なXPathを試してみてください！

Webスクレイピングとは？

発見 1: 54の業種がWebスクレイピングスキルを要求している

発見 2: 技術以外の職業がWebスクレイピングスキルを要求している

発見 3: 給与が高い職業トップ10

発見 4: 給与が高い業種トップ10

発見 5: Webテクノロジー企業にあるWebスクレイピング （Googleを例として）

まとめ

発見 5: Webテクノロジー企業にあるWebスクレイピング（Googleを例として）