5分で分かる！ビッグデータ、機械学習、データマイニングの意味 - Octoparse

近年のWeb、スマホ、アプリなどの発展により、以前とは比較にならないほど膨大な量の情報があふれています。このようなビッグデータを扱う需要が増えてきており、そのデータ分析を行う分野であるデータサイエンスに注目が集まっています。

そんな中、上司から唐突に「データマイニングを使って、このデータから業務改善に役立つような案を出してくれ」と言われ、困ったことはありませんか？データマイニングと似た言葉に、機械学習があります。よく耳にするこの「データマイニング」や「機械学習」とは、そもそもどのようなものなのでしょうか？

今回は、これらの言葉について、わかりやすく解説していきます。

ビッグデータ

ビッグデータとは、インターネット上に溢れている大量のデータを意味する用語です。しかし、多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多いです。データ量が膨大である場合、このデータはどの単一のコンピューターでも処理できないことは明らかです。たとえ10GBほどの大きなファイルを、すべてのWindowsシステムでクラッシュする前に開くことはできません。そのために、ビッグデータが開発されています。大きなファイルを小さく分割し、多数のコンピューターで処理できる特別なソフトウェアと考えることもできます。このようなデータを分割してコーミングするプロセスは、MapReduceと呼ばれています。このプロセスで最も一般的に使用されるフレームワークはHadoopです。 Hadoopは基本的な問題を解決し、Pig、Zookeeper、Hiveなどのツールとともに使用して、プロセスをさらに簡単にします。

機械学習

機械学習とは、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことです。さき、データの処理方法にに言及しました。例えば、このデータには、購入した商品の合計数、各購入者が購入した商品数など、購入者の購入行動のが含まれていると仮定します。これは今までの単純な統計分析です。しかし、さまざまなタイプの顧客の間における相関関係を分析する場合、特定のタイプの顧客の好みを推定する場合、または顧客の性別や年齢を予測する場合でも、より多くの複雑なモデルが必要です。それはアルゴリズムと呼ばれています。ロジスティック回帰、決定木、協調フィルタリングなど、データマイニングの目的で開発されたさまざまな種類のアルゴリズムを機械学習として理解することができます。

データマイニング

「データマイニング」とは、大量のデータについて統計学や人工知能などを駆使して、データ間の相関関係や隠れたパターンなどを見出すための手法です。機械学習アルゴリズムを適用することで、既存のデータを利用して未知数を予測することができます。これが、データマイニングが機械学習と深い関係がある理由です。それにもかかわらず、あらゆる機械学習アルゴリズムの強みは、大量のデータの供給に大きく依存します。アルゴリズムがどれほど洗練されているかに関係なく、数行のデータからインスピレーションを予測することはできません。ですから、データマイニングを行うために、まずは実際にデータを収集することが必要です。一般的には、元となるデータが多ければ多いほど、有益な情報をマイニングできる可能性が高まります。

まとめると、ビッグデータ技術は機械学習の前提、機械学習を使用することで、既存のデータセットから貴重な情報を得ることはデータマイニングです。

ビッグデータ、データマイニングと機械学習は何ができますか？

要するに、それらの技術は予測の能力を私たちに与えます。

1.私たちの生活はデジタル化された

今、私たちの毎日している多くのことが記録されます。すべてのクレジットカードの取引はデジタル化され、追跡可能です。私たちの公衆活動は、街の隅々まで監視されています。企業にとって、財務データや営業データの大部分は各種類のERPに保存されています。ウェアラブルデバイスの登場により、心拍や息がデジタル化され、使用可能なデータに保存されています。生活の多くがデジタル化されているように、コンピュータはこの世界をよりよく理解できるようになりました。

2.パターンが変わらないなら、過去=未来

世の中にある物事は異なるパターンを示しています。例えば、仕事日には会社と家の往復する可能性が高く、休日に旅するか映画を見るか、このパターンがあまり変わりません。店舗の1日に、ピーク時間帯と暇時間帯があるというパターンはあまり変わりません。企業は年間数ヶ月のうちにより高い労働投入を要求するパターンはあまり変わりません。

ポイント1とポイント2をまとめると、過去のパターンが提供されている場合、コンピュータが未来を予測するのが非常に可能であると結論付けることができます。これらのパターンは長期間にわたって一貫している可能性が高いためです。

コンピュータが人々のライフスタイルを予測できるなら、プロモーションの展開がしやすい時期を正確にわかります。例えば、ある人は毎週の金曜日に洗車サービスを受ける場合、洗車キャンペーンを実施するか、ある人は毎年の3月に旅行に行く傾向がある場合、ホテルの宿泊にクーポンを配布するかなどのことを行います。ビジネス的には、コンピュータは店舗の1日中の売上を予測して、総収益を最大化するビジネス戦略を構築することができます。企業の場合、コンピュータは労働力を最も合理的に配置して、最高の運用計画を立てることもできます。

未来が予測可能になるとすぐに、私たちは早めに計画を立て、しっかり準備をすることができます。「マトリックス」のネオと同じように、弾丸がどこから来ているかを見られるので、弾丸を止めれます。「確率論に高度な把握、人間心理学に徹底的な理解、特定の個体に既知の傾向は、変数の数をかなり減らすことができる」とシャーロック・ホームズがそう言いました。言い換えれば、「ビッグデータは、未来を予測する力を私たちに与える」ということです。これはデータマイニングの力で、データマイニングはビッグデータと結びついています。ビッグデータは膨大なデータセットを可能し、すべての予測に基盤を提供しているからです。