清華大学の科学研究におけるWebスクレイピングの役割

2017年から、Octoparse清華大学と共同で社会科学および経済関連分野の科学研究を行っています。清華大学の中で、経済研究所は社会科学部およびデータデータサイエンス研究所と連携して、インターネットから有用なデータを収集し分析することを目的とした「iCPI研究グループ」と呼ばれる共同研究チームを組織して、研究活動を行います。Octoparseビッグデータを大規模に収集し、清華大学ビッグデータを分析することによって、社会に適用される可能性のある行動を説明するために、科学法と理論を確立しようとしています。

 

iCPI研究に関する基本紹介 

 

iCPIとは?

iCPIはインターネットベースの消費者物価指数です。経時的な生活費の追跡に使用される通常のCPIと比べて、iCPIは、リアルタイムのオンラインデータに基づいて、と数十億のオンラインマーチャント取引における消費者の行動と急激な価格変動を調べることによってインフレを予測するように設計されています。

 

期待される結果:

Octoparseの力を借りて、清華大学のiCPI研究チームはプロジェクトに専念することを可能にし、重要な進歩を遂げました。リアルタイムのiCPIインデックス分析により、財務、経済データアナリスト、学校の研究者はデータを簡単に参照することができます。

 

 

 

 

研究の手順:

 

ステップ1:変数を定義する

中国国家統計局NBS)によると、CPIバスケットには8つの主要なカテゴリーがあります。食物、アルコール&タバコ、住居、衣類、交通&通信、健康、家庭用耐久財&サービス、教育&娯楽、その他のカテゴリです。各カテゴリーに含まれるサブコンポーネントもあり、例えば食品カテゴリーの穀物、豚肉、野菜のサブコンポーネントなどです。

清華大学の研究グループは、複数のプラットフォームで最大のオンライン市場シェアを持つ、販売価格の安定したカテゴリとサブコンポーネントを選択する必要があります。

 

ステップ2:データを収集する

iCPIの調査研究は、通常のCPIの研究とは異なります。実験の実施、参加者の観察、調査、既存のリソースなど、従来の方法ではデータを収集することはできません。清華大学の研究チームは、マクロ経済の判断基準として信頼できるiCPIパターンを生成するために、インターネット上の価格と商品に関する大量の情報を必要としています。したがって、データの収集は、手動のコピペは無理で、自動Webスクレイピングの形式で行う必要があります。

 

ステップ3:相関分析

 

ステップ4:指数計算

  • 毎日インデックス
  • 毎週インデックス
  • 毎月インデックス

 

Octoparseが選ばれる理由

 

iCPIの研究チームは研究を支援するために大量のデータを必要とします。それに研究メンバーがこのような量のデータを入手するには相当難しいです。

この作業に、コードを書くことを含む高度なデータ分析スキルが必要です。プログラミングのスキルが不足している研究メンバーにとっては困難な作業になります。

それに、データ収集のプロセスにおける量、質、効率、そして自動化を考える必要があります。スクレイピングが速すぎる場合、Webサイトがそれ以上のスクレイピングをブロックするための防止メカニズムを設定する可能性が非常に高いです。

結果として、チームメンバーがコーディングなしでスクレイピングできるようにし、同時にブロックすることを防ぐことが必要です。

Octoparseは、コードを1行も書かずにブロック防止機能を備えたWebスクレイピングツールです。他のスクレイピングツールと比べて、Octoparseは以下の特徴を持っています:

 

1. Octoparseの最も目立つ機能はスクレイピングテンプレートです。ソーシャルメディア、Eコマース、google scholar、金融などを含む12の異なるカテゴリをカバーするテンプレートが45個あります。

 

 

2. 内蔵ブラウザ:Web閲覧プロセスをシミュレートすることで、スクレイピングプロセスを視覚化します。そのため、Webページ構造についての知識がまったくない人は、Webスクレイピングを実行するために大量のHTMLコードを処理する必要はありません。

3. IPローテーション:1つのWebサイトから大量のデータを取得する予定の場合は、IPアドレスを頻繁に変更する必要があります。これは、Webサイトが1つのIPアドレスから発生した異常な動作を検出し、同じIPアドレスからの過剰なリクエストを禁止するためです。IPローテーションは、IPプロキシを自動的に切り替えるように設計されているため、追跡されるやアクセス拒否される可能性は最小限にされます。

4. ユーザーエージェントの切り替え:ユーザーエージェントは、ブラウザがWebサイトにリクエストを送信するために使用される名前タグです。Webサイトによっては、あるユーザーエージェントがWebサイトへのアクセスを許可されていないこともあります。Octoparseはこのような状況を避けるために9つのユーザーエージェントを提供しています。 

5. Cookieの自動削除:抽出プロセスを加速することができます。

 

 

 

 

まとめ

Octoparseはリリースされて以来、学校や教育機関を支援し、学割プログラムを実施しています。学割といえど在学中の学生だけでなく、教員の方も対象です。学割を申し込むには、学校名や学生証の提示、教育機関専用のメールアドレスが必要となります。対象となる方は学生・教職員価格で購入して、割引を受けましょう。