Webスクレイピングとデータ分析は、ビジネスの成長にどのように役立ちますか？ - Octoparse

f:id:octoparse:20190807124145p:plain

データ分析が我々の生活に一定的な影響をもたらしています。ビジネスや企業はデータによって顧客の行動や市場の要求を分析することが簡単になりました。

Wal-Martは、Amazonと競合するために、統計分析と意味分析に基づく「Polaris」という検索エンジンを開発しました。Polarisは、Facebookから、pined/liked/savedなどの商品に関するメッセージを受け取ることができます。これでWal-Martは消費者の動向を一刻も早く把握することができます。

それにひかれて、私もデータからユーザーのログイン頻度と販売数この２つのの間にいったいどういう關係性があるのかをを分析してみました。

以下では、それらのデータを取得する方法と、データの分析について説明します。

Part 1、ユーザー記録データの収集

オンラインユーザー管理システムには多くのユーザー記録データを保存しているはずです。データを構造化してエクスポートし、さらに分析するためにローカル側に保存する必要があります。企業にとって、プログラミングによってWebサイトからデータをクロールするコストは予算オーバーになる可能性があります。この記事ではオンライン管理システムからデータをクロールする方法について紹介します。

データをクロールするにはコーディングする必要がなく、無料WebスクレイピングツールのOctoparseが必要です。ドラッグとクリックするだけで、目的のデータを簡単に収集できます。オンライン管理システムからデータを抽出する方法は不便なので、今度は別のサイトを利用してデータを抽出する方法と、実際にオンライン管理システムから抽出したデータに基づいた分析を説明します。

f:id:octoparse:20190807124158j:plain

手順：

ステップ1、ターゲットURLを入力して下さい。内蔵ブラウザでWebページを完全に読み込まれるのを待ちます。

ステップ2、ページネーションループを設定します。Octoparseは自動的に次のページに渡ります。

ステップ3、下記画像の中にある赤枠のように、全てのターゲットデータを含むループアイテムを作成します。

ステップ4、データフィールドを選択します。このサイトは商品名、商品価格とポイントですが、オンライン管理システムの場合ではログイン頻度、購入品番やユーザーIDなどそれぞれにニーズに合わせて選択してください。

ステップ5、指示に従って次のステップをクリックし、「ローカル抽出」を選択します。データがどのように短期間で抽出されるのかをローカル抽出画面で確認できます。

f:id:octoparse:20190807124734p:plain

OctoparseではExcel、CSV、HTMLなどを含むさまざまな形式にデータを抽出できます。

f:id:octoparse:20190807124242p:plain

Part 2、データ分析

（これからの内容は全て実際のオンライン管理システムから収集されたデータに基づいた分析です。上記のサイトから抽出されたデータとは無関係です。）

ステップ1、推測

データをExcelにエクスポートしましたので、これら2つの要素（ログイン頻度、販売数）が実際に互いに關係性があるかどうかを調べます。データを再編成して以下ようになります。

f:id:octoparse:20190807124252p:plain

取得されたデータに基づき以下のような散布図を作って、分析したいデータ（ログイン頻度、購入数）が規則的に分布していることが一見でわかります。購入数のほとんどはログイン頻度の2〜5の間に集まっています。これは、ログイン頻度が2〜5の範囲にある人々がより高い購入傾向を示すというシナリオを想定しています。さらに、赤線から見れば、ログイン頻度がこの範囲内であるほど、顧客が購入する商品の数が多くなると予測できます。しかし、これは単なる主観的な推測です。この仮説を試すためにさらに進む必要があります。