Webスクレイピングとデータ分析は、ビジネスの成長にどのように役立ちますか?

f:id:octoparse:20190807124145p:plain


データ分析が我々の生活に一定的な影響をもたらしています。ビジネスや企業はデータによって顧客の行動や市場の要求を分析することが簡単になりました。

Wal-Martは、Amazonと競合するために、統計分析と意味分析に基づく「Polaris」という検索エンジンを開発しました。Polarisは、Facebookから、pined/liked/savedなどの商品に関するメッセージを受け取ることができます。これでWal-Martは消費者の動向を一刻も早く把握することができます。

それにひかれて、私もデータからユーザーのログイン頻度と販売数この2つのの間にいったいどういう關係性があるのかをを分析してみました。

以下では、それらのデータを取得する方法と、データの分析について説明します。

 

Part 1、ユーザー記録データの収集

オンラインユーザー管理システムには多くのユーザー記録データを保存しているはずです。データを構造化してエクスポートし、さらに分析するためにローカル側に保存する必要があります。企業にとって、プログラミングによってWebサイトからデータをクロールするコストは予算オーバーになる可能性があります。この記事ではオンライン管理システムからデータをクロールする方法について紹介します。

データをクロールするにはコーディングする必要がなく、無料WebスクレイピングツールOctoparseが必要です。ドラッグとクリックするだけで、目的のデータを簡単に収集できます。オンライン管理システムからデータを抽出する方法は不便なので、今度は別のサイトを利用してデータを抽出する方法と、実際にオンライン管理システムから抽出したデータに基づいた分析を説明します。

f:id:octoparse:20190807124158j:plain

 

手順:

ステップ1、ターゲットURLを入力して下さい。内蔵ブラウザでWebページを完全に読み込まれるのを待ちます。

ステップ2、ページネーションループを設定します。Octoparseは自動的に次のページに渡ります。

ステップ3、下記画像の中にある赤枠のように、全てのターゲットデータを含むループアイテムを作成します。

ステップ4、データフィールドを選択します。このサイトは商品名、商品価格とポイントですが、オンライン管理システムの場合ではログイン頻度、購入品番やユーザーIDなどそれぞれにニーズに合わせて選択してください。

ステップ5、指示に従って次のステップをクリックし、「ローカル抽出」を選択します。データがどのように短期間で抽出されるのかをローカル抽出画面で確認できます。

f:id:octoparse:20190807124734p:plain

OctoparseではExcelCSV、HTMLなどを含むさまざまな形式にデータを抽出できます。

f:id:octoparse:20190807124242p:plain

 

Part 2、データ分析

(これからの内容は全て実際のオンライン管理システムから収集されたデータに基づいた分析です。上記のサイトから抽出されたデータとは無関係です。)

ステップ1、推測

データをExcelにエクスポートしましたので、これら2つの要素(ログイン頻度、販売数)が実際に互いに關係性があるかどうかを調べます。データを再編成して以下ようになります。

f:id:octoparse:20190807124252p:plain

取得されたデータに基づき以下のような散布図を作って、分析したいデータ(ログイン頻度、購入数)が規則的に分布していることが一見でわかります。購入数のほとんどはログイン頻度の2〜5の間に集まっています。これは、ログイン頻度が2〜5の範囲にある人々がより高い購入傾向を示すというシナリオを想定しています。さらに、赤線から見れば、ログイン頻度がこの範囲内であるほど、顧客が購入する商品の数が多くなると予測できます。 しかし、これは単なる主観的な推測です。この仮説を試すためにさらに進む必要があります。

 

f:id:octoparse:20190807124254p:plain

 

ステップ2、統計的仮説検定分析(P値)

ユーザーのログイン頻度と購入数の間に一定的な関係があると想定してみましょう。

まず、ログイン頻度は2~5以内だと仮定しました。

次に、ログイン頻度2、3、5のデータに統計的仮説検定分析を行います。

それから、データ全体からランダムサンプリングを行い、22のサンプルデータを選択します。

f:id:octoparse:20190807124307p:plain

f:id:octoparse:20190807124305p:plain
その後、Matlabまたは他の利用可能なデータ分析ツールを使用して単一因子分散分析を実行できます。有意水準α、すなわちタイプIエラーを起こす確率を0.05に設定します。 

終結果は以下の通りです。3つのグループは平均値が異なっていることがわかります。サンプルグループの違いは、実験のサンプリングエラーによって発生したと仮設します。

P値をαと比較すると、P値がα未満であることがわかります。したがって、これら3つのグループに違いがあるという対立仮説を支持して帰無仮説を棄却できます。さらに、ユーザーの購買数が、ログイン頻度の影響を受けることが検証できます。

 

f:id:octoparse:20190807124310p:plain

 

上記の分析から、指定されたログイン頻度を持つターゲットユーザーにもっと目を向け、目標と予算計画に焦点を合わせる分析に役立つことができます。