AI(人工知能)がこれからどのように世界を変えていくのか?

中国検索エンジン最大手「百度Baidu」創業者であり、現会長兼CEO李彦宏(英語名:ロビン・リー)はTime Asiaの2019年1月29号の「The Innovator」表紙に登場しました。 中国のIT起業家がTime Asiaの表紙に登場したのは今回初めてです。作品の見出しには、「Baidu's Robin Li is Helping China Win the 21st Century」(Baiduのロビン・リーが中国21世紀の勝利を大きく支えている」と書かれています。 

 

f:id:octoparse:20190823155643j:plain

 

Baiduは中国でかなり物議を醸す大手企業の1つですが、なぜTime Asiaは、この会社にそこまで非常に高く評価しているのでしょうか? これは、21世紀に世界の生産性に影響を与える主な要因であるAI(人工知能)から語ります。

11月にワシントンで開催されたAI(人工知能)およびグローバルセキュリティサミットで、Google Alphabetの会長であるエリック・シュミット氏は中国のAIについて「中国は2030年までに世界のAI産業を支配する役割になるだろう」と言った。 そして、ロシアのプーチン大統領「AIを支配できる国は世界を支配できるのだろう」と話しました。AIはすでに世界に大きな影響を与え、今後数年間で爆発なスピードで進化することに間違いありません。さらに第四回の産業革命を起こすことになるかもしれませんね。

 

f:id:octoparse:20190823155704j:plain


AIは現代社会において非常に重要な役割になってきたため、それに関する知識を完全に把握できなくても、それについて学び、理解する機会を人々に提供すべきだと思います。人工知能はかなり前から存在しており、もはや新しいものではありませんが、やはり人工知能は実際に何であろうかと思う人がたくさんいると思います。したがって、この記事では、AIとは何か、そしてAIがどのように世界を変えるかについて簡単に説明します。

李彦宏会長の言葉でいうと、「私たちが想像している未来は、人間が人間の言葉を使ってすべてのデバイスと対話できることです。人間と動物の違いは、人間が道具を使うことができることだ。過去10万年にわたって、人間は将来のために道具の使い方を習ってきました。しかし、AIの時代では道具が人間の言語と意図を理解する方法を学ぶ未来となると確信しています。」

道具は、人間の言語、人間の意図を理解する方法を学びます。かつて人間が道具や製品について学ぶことを必要とされました。これと同じに、道具は私たちについて学び始め、私たちの意図が何だろうかを理解し始めるプロセスはAI(人工知能)です。ですが、問題となっているのは、道具はいかにすれば、人間と同じくらい複雑なものをよりよく理解できるのかということです。

神様は、他のすべての動植物とは異なり、目、体の動き、声を通して感情や思考を表現する能力を持つ人間を創造しました。道具に書かれた文字を目で読んだり、手で道具を使ったりすることができます。もちろん、自分の目で人を見たり、それから、話し合ったり、そのひとのことを理解しようとしたりすることができます。これは人間なんです。ですが、道具にも手、耳や口などが埋め込めれば、人間と同じように、他の道具または人間を理解することができるのだろうか。

人間を理解することが可能ですが、道具に目、手、口が埋め込まれることはないでしょう。技術進化につれて、人間はカメラ技術、赤外線技術、音声技術などの技術を合わせて人間の目としての役割を務めています。それによって人々の動作や話し方をキャプチャするこことができます。これらを機械学習アルゴリズム、モデル、ビッグデータ、データマッピングアルゴリズムと組み合わせると、顔認識、ジェスチャー認識、音声認識の技術が生まれました。


AIはどのような私たちの生活に影響を与えますか?

道具はあなた自身よりも自分のことをよく理解していると、驚きまませんか。いくつかの例を見てみましょう。

1.エアコンは、あなたがいる場所の環境によって、空気の流れと温度を調整できるようになります。あなたよりも居心地のよい環境を一番早く把握できます。

2. AppleのSiriのように、基本的なニーズのほかに、答えがわからない時、または退屈になった時に、暇つぶしとして付き合ってくれる道具もあります。

3.クラウド上のデータをローカル共有するにはより早いスピードで実現でき、外側への情報漏れの心配がありません。 


今後AIが爆発なスピードで進化していくのはなぜですか?
テクノロジーは進化していますが、最も重要なものは5Gネットワークです。4Gはすでに十分な速度ではないかと聞く人がいるかもしれません。確かにそうですが、5Gは4Gよりも100倍早く、Youtubeでビデオを視聴したり、ライブビデオを視聴したりするなど、あらゆる場面で使用できます。画像認識、ジェスチャー認識、顔認識、または音声認識の処理時間が大幅に短縮され、デバイス間のインタラクティブな接続が可能になります。5Gの登場は、AIの分野に基盤となる影響を与えると考えられます。

 

f:id:octoparse:20190823155829j:plain

 

将来、AIは大きな技術革新を引き起こし、人類の未来に多大な影響を与えることに間違いないでしょう。 

 

 

2019年データサイエンスにオススメの本80冊!

ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習マーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します!

 

 

Part I: データサイエンス概論

1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著

データサイエンス講義

本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。

2.『戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック』Foster Provost、Tom Fawcett著

戦略的データサイエンス入門

本書は、データをビジネスに活かすために身に付けておくべき基本的な考え方と、データマイニングモデリングの根底に存在するコンセプトについて、体系的に解説しています。

3.『データサイエンス入門』竹村彰通著

データサイエンス入門

本書はデータの処理・分析に必要な情報学(コンピュータ科学)と統計学の基本知識をおさえ、またデータから新たな価値を引き出すスキルの学び方を紹介します。

 

 

Part II: データサイエンスための数学

4.『その数学が戦略を決める』イアン・エアーズ著

その数学が戦略を決める

本書では一貫して絶対計算(すべてを大量データに基づく数字を使って意思決定を行うこと)の利点を現実のいろいろな例から説いています。

5.『プログラミングのための線形代数』堀玄、平岡和幸著

プログラミングのための線形代数

本書は、専門・非専門を問わずコンピュータにかかわる方を主な対象に想定した線形代数の参考書です。単に「線形代数プログラムの書き方」を解説する本ではなく、数学のプロでない読者に線形代数の本音を語ることが狙いです。

6.『統計学のための数学入門30講 (科学のことばとしての数学)』永田靖著

統計学のための数学入門30講

本書の内容は高校数学から初等の微分積分線形代数学のレベルであり、わかりやすくなぜこの数式が統計学に役立つのかについて丁寧に解説しています。

7.『これなら分かる最適化数学―基礎原理から計算手法まで』金谷健一著

これなら分かる最適化数学―基礎原理から計算手法まで

本書は最適化手法の入門書として書かれたもので、経営学やORのみならず、統計的最適化や機械学習に関する話題も扱っています。また、各手法を紹介するだけでなく、その数学的背景の解説に力点を置いています。

8.『統計のための行列代数(上・下)』D. A.ハーヴィル著

統計のための行列代数(上)   統計のための行列代数(下)

この本は、統計ユーザーが線形統計モデルや多変量解析での応用に必要とする線形代数の基礎を、具体的に行列を使って解き明かした入門書です。 

 

9.『統計学が最強の学問である』

10.『統計学が最強の学問である[実践編]---データ分析のための思想と方法』

11.『統計学が最強の学問である[ビジネス編]――データを利益に変える知恵とデザイン 』

12.『統計学が最強の学問である[数学編]――データ分析と機械学習のための新しい教科書』

統計学が最強の学問である  統計学が最強の学問である[実践編]  統計学が最強の学問である[ビジネス編]  統計学が最強の学問である[数学編]

この4冊は西内啓さんのシリーズ作品で、統計学がなぜ必要なのかをよく説明しています。この4冊を読んで、統計学の本当の魅力とパワフルさを知っているでしょう。

13.『プログラミングのための確率統計』堀玄、平岡和幸著

プログラミングのための確率統計

この本は、数式による定理の証明とその説明という数学教科書の一般的なスタイルとは異なったかたちで確率統計を解説していいます。 

14.『統計学入門 (基礎統計学)』

15.『自然科学の統計学 (基礎統計学)』

16.『人文・社会科学の統計学 (基礎統計学) 』

統計学入門 (基礎統計学)  自然科学の統計学 (基礎統計学)  人文・社会科学の統計学 (基礎統計学)

この3冊は東京大学出版会の基礎統計学3部作で、基本的な内容を網羅的に扱って、さまざまな統計学的考え方を紹介し、その基礎をわかりやすく解説します。

17.『データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング』Peter Bruce、Andrew Bruce著

データサイエンスのための統計学入門

本書はデータサイエンスに必要な統計学機械学習の重要な50の基本概念と、関連する用語について、簡潔な説明と、それを裏付ける最低限の数式、クリアな可視化、実現するRコードを提示して、多方面からの理解を促します。

 

  • 多変量解析

18.『多変量データ解析法―心理・教育・社会系のための入門』足立浩平著

多変量データ解析法

本書を読み終えた後、SPSSあるいはR等の統計ソフトを用いて実際のデータに触れることにより、さらに多変量解析への理解と興味が深まることでしょう。

19.『多変量解析法入門 (ライブラリ新数学大系) 』永田靖、棟近雅彦著

多変量解析法入門

本書は入門的な統計的方法を習得した方々を対象とした多変量解析法の入門書です。

 

  • 因果推論

20.『データ分析の力 因果関係に迫る思考法』伊藤公一朗著

データ分析の力 因果関係に迫る思考法

本書はランダム化比較試験、RDデザイン、パネル・データ分析など、因果関係に迫る最先端のデータ分析手法について、数式を使わず、具体例とビジュアルな描写を用いて解説していきます。 

21.『「原因と結果」の経済学―――データから真実を見抜く思考法』中室牧子、津川友介著

「原因と結果」の経済学―――データから真実を見抜く思考法

この本を読めば、2つのことがらが本当に「原因と結果」の関係にあるのかどうかを正しく見抜けるようになり、身の回りにあふれる「もっともらしいが本当は間違っている根拠のない通説」にだまされなくなります。この「因果推論」の考えかたを、数式などを一切使わずに徹底的にやさしく解説します。

 

22.『ベイズモデリングの世界』岩波書店

ベイズモデリングの世界

本書はベイズ統計について統計モデリングの立場から幅広く解説し、特に、階層ベイズモデルや状態空間モデルの周囲にひろがる世界について、さまざまな視点から論じています。

23.『基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門』豊田秀樹著

基礎からのベイズ統計学

本書は基本的なことから、数式をわかりやすく用いて、その体系を解説しています。ベイズ統計の本格的な入門書としては出色の出来だと思います。 

24.『ベイズ統計の理論と方法』渡辺澄夫著

ベイズ統計の理論と方法

本書はベイズ統計学に初めて出会う人が疑問に思うことを解説し、理論的な基礎を明らかにし、実用上で注意することを説明します。

 

25.『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』久保拓弥著

データ解析のための統計モデリング入門

本書は現象を数理モデルで表現・説明するのに慣れていない人のために、章ごとに異なる例題を解決していく過程を通して、統計モデルの基本となる考えかたを説明します。

26.『予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)』樋口知之著

予測にいかす統計モデリングの基本

本書はデータの見方や考え方から述べられた本当にほしかった入門書です。

27.『マーケティングの統計モデル (統計解析スタンダード)』佐藤忠彦著

マーケティングの統計モデル

本書は効果的なマーケティングのための統計的モデリングとその活用法を解説します。

 

 

Part III: データサイエンスためのコアスキル 

28.『入門 機械学習』Drew Conway、John Myles White 著

入門 機械学習

本書はプログラミングの素養がある読者向けに、数学的・理論的な知識が必要なくても読めるよう、理論より実践に重きを置いて書かれた機械学習の入門書です。

29.『パターン認識機械学習(上・下)』C.M. ビショップ著

パターン認識と機械学習(上)  パターン認識と機械学習(下)

本書はベイズ理論に基づいた統一的な視点から機械学習パターン認識の様々な理論や手法を解説しています。

30.『機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書) 』須山敦志著

機械学習スタートアップシリーズ ベイズ推論による機械学習入門

本書は「機械学習をもっと身近に、機械学習をもっとわかりやすく!」を合言葉に、より丁寧な記述で、基本的なテーマを解説していきます。 

31.『言語処理のための機械学習入門 (自然言語処理シリーズ) 』高村大也著

言語処理のための機械学習入門

本書は機械学習の入門書としましては、大変分かりやすく、様々な機械学習モデルを網羅していると思います。 

32.『はじめてのパターン認識』平井有三著

はじめてのパターン認識

本書はパターン認識にはじめて触れる読者に向け、基礎からわかりやすく解説した入門書です。パターン認識の概念がよく理解できるとともに、Rによる実行例など実際に応用する際にも役立つ内容が盛り込まれています。

33.『機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム加藤公一

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム

本書では機械学習のいくつかの有名なアルゴリズムを、自分でゼロから実装することを目標としています。

 

34.『データマイニング入門』豊田秀樹著

データマイニング入門

本書はデータマイニングの基礎、ニューラルネット、決定木、サポートベクターマシンベイジアンネットワーク、潜在意味解析など近年登場した新しい分析までをお菓子やワインの銘柄など親しみやすいデータで幅広く解説します。

35.『データマイニングとその応用 (シリーズ・オペレーションズ・リサーチ)』加藤直樹、矢田勝俊、羽室行信著

データマイニングとその応用

古典的なアソシエーション分析を一度は学んでみたいという方にオススメ。

36.『データマイニングによる異常検知』山西健司著

データマイニングによる異常検知

本書はデータマイニングによる異常検知に特化して書かれた日本で初めての書です。

37.『数式を使わないデータマイニング入門~隠れた法則を発見する』岡嶋裕史

数式を使わないデータマイニング入門

本書ではこのデータマイニングの手法について入門レベルで簡単に解説しています。 

38.『戦略的データマイニングアスクルの事例で学ぶ』池尾恭一、井上哲浩著

戦略的データマイニングアスクルの事例で学ぶ

本書は実際にアスクルデータマイニングに用いた膨大な顧客の購買履歴などを素材に、顧客構造、顧客クラスターの分析などによってどう売り上げ増につなげたかを具体的に明らかにしています。

 

39.『SQL 第2版 ゼロからはじめるデータベース操作』ミック著

ゼロからはじめるデータベース操作

本書は「データベースやSQLがはじめて」という初心者を対象に、プロのデータベース(DB)エンジニアである著者がSQLの基礎とコツをやさしく丁寧に教える入門書です。

40.『いちばんやさしい SQL 入門教室』矢沢久雄著

いちばんやさしい SQL 入門教室

本書では更新系のSQLの基本的な使い方も解説します。マスターするSQLは、「SQLの構文」「サンプル(例文)」「練習問題」の3ステップで解説します。段階を踏んで学べるので、初心者の学習に最適です。

41.『ビッグデータ分析・活用のためのSQLレシピ』加嵜長門、田宮直人著

ビッグデータ分析・活用のためのSQLレシピ

本書は、著者が普段の業務で実際に作成しているレポートやSQLのコードをより汎用化し、レシピ集としてまとめたものです。「データの加工」「売上の把握」「ユーザーの把握」「Webサイト内のユーザー行動の把握」「異常値の検出」「検索機能の評価」「レコメンド」など、具体的なシーン別に、実践的な手法とノウハウを解説しています。

 

  • R

42.『Rによるデータサイエンス データ解析の基礎から最新手法まで』金明哲著

Rによるデータサイエンス

本書はR言語によるデータ解析の入門書です。データサイエンスブームに先駆けた初版の発行以来、網羅性と実用性の高さから、多くのRユーザーに支持を得てきました。

43.『Rではじめるデータサイエンス』Hadley Wickham、Garrett Grolemund著

Rではじめるデータサイエンス

本書はデータサイエンスに必要な要素とプロセス(インポート、整理、変換、可視化、モデル、コミュニケーション、プログラミング)を明確に定義し、それぞれ順を追い、各節の最後には練習問題を掲載して、ていねいに説明します。データサイエンティストを目指すなら必読の一冊です。 

44.『Rクックブック』Paul Teetor著

Rクックブック

本書はオープンソースの統計解析ツール、Rの使い方、機能、威力を、200以上におよぶ問題の「レシピ」を通じて紹介するクックブックです。

 

45.『IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集』Cyrille Rossant著

IPythonデータサイエンスクックブック

本書はPythonの対話型環境IPython notebookを使ってデータ分析および可視化を行うためのレシピを集めたクックブックです。

46.『Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習』Jake VanderPlas著

Pythonデータサイエンスハンドブック

本書はPythonでデータの操作、変換、可視化、統計的処理、データモデルの構築、科学計算を行う人にとってはいつも手元に置いておきたい「使える」一冊です。

47.『Python機械学習プログラミング 達人データサイエンティストによる理論と実践』Sebastian Raschka著

Python機械学習プログラミング

本書は機械学習の理論と実践についてバランスよく解説してあり、AIプログラミングの第一歩を踏み出すための格好の一冊です。

 

  • 深層学習

48.『深層学習 (機械学習プロフェッショナルシリーズ)』岡谷貴之著

深層学習 (機械学習プロフェッショナルシリーズ)

本書はいま最も注目されている機械学習手法である深層学習(ディープラーニング)を、トップ研究者が解説しました。

49.『ゼロから作るDeep LearningPythonで学ぶディープラーニングの理論と実装』斎藤康毅著

ゼロから作るDeep Learning

本書は「ディープラーニング」についての本です。ディープラーニングを理解するために必要な知識を、初歩的なことから一つひとつ積み重ねながら説明していきます。

50.『機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)』瀧雅人著

機械学習スタートアップシリーズ これならわかる深層学習入門

本書は『深層学習』の入門版というものです。

51.『イラストで学ぶ ディープラーニング (KS情報科学専門書) 』山下隆義著

イラストで学ぶ ディープラーニング

本書はディープラーニングをはじめて学びたい人を対象とした入門書です。

52.『深層学習 Deep Learning (監修:人工知能学会) 』近代科学社

深層学習 Deep Learning

本書は、この分野の最先端の著者らが、人工知能学会誌に掲載した連載解説を大幅に加筆再編し、今までの到達点・今後の課題を具体的な研究成果と共に書いたものです。

53.『深層学習』KADOKAWA

AI研究の一分野として注目を集める深層学習(ディープラーニング)に関する教科書として世界的な評価を受けている解説書です。

 深層学習

 

54.『強化学習 (機械学習プロフェッショナルシリーズ) 』森村哲郎著

強化学習 (機械学習プロフェッショナルシリーズ)

本書は強化学習で必要になる数理を広くカバーしました。

55.『強化学習』Richard S.Sutton、Andrew G.Barto著

強化学習

本書は強化学習の基本的な考え方から、関連アルゴリズム、応用例までを網羅しており、初学者から先端的研究者までを対象とする一冊です。

 

56.『言語処理のための機械学習入門 (自然言語処理シリーズ)』高村大也著

言語処理のための機械学習入門

本書は機械学習の入門書としましては、大変分かりやすく、様々な機械学習モデルを網羅しています。 

57.『自然言語処理 (放送大学教材)』黒橋禎夫著

自然言語処理 (放送大学教材)

本書は自然言語処理に関連する主要なトピックスがコンパクトにまとまっています。

58.『社会調査のための計量テキスト分析―内容分析の継承と発展を目指して』樋口耕一 著

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

本書は計量テキスト分析を行うための著者自作のソフトウェアKHコーダーの解説書です。

59.『自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)』奥野陽、グラム・ニュービッグ、萩原正人著

自然言語処理の基本と技術

本書は、この未来に不可欠となるに違いない自然言語処理の、技術的、ビジネス的基礎知識をくまなくコンパクトに図解した一冊です。 

60.『入門 自然言語処理オライリージャパン

入門 自然言語処理

本書では、NLPの理論的な基礎、理論、応用をバランスよく解説します。

 

  • 前処理

61.『前処理大全(データ分析のためのSQL/R/Python実践テクニック)』本橋智光著

前処理大全(データ分析のためのSQL/R/Python実践テクニック)

本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。

62.『機械学習のための「前処理」入門』足立悠著

機械学習のための「前処理」入門

本書では、構造化データ、画像データ、時系列データ、自然言語について、機械学習における前処理の手順を紹介します。

 

 

Part IV: データサイエンスの関連知識

 

  • 経済学

63.『実証分析のための計量経済学』山本勲著

実証分析のための計量経済学

本書は推定結果を多数紹介しながら、理論や数式展開を極力省略して、直感的・実践的に解説し、多くの分析手法を取り上げ、入門から大学院レベルまで幅広くカバーします。

64.『計量経済学 (y21) 』浅野皙、中村二朗著

計量経済学 (y21)

より学習しやすいように、付録・演習問題を充実させ、問題の解答を収載します。

65.『「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド』NTT出版

「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

本書は労働経済学や教育の経済学で主流となった「実験学派」の計量分析の手法を理論と応用の面から解説し、回帰モデルのβ係数(の期待値)を推定するための手法に焦点を絞り、理論と応用をバランスよく紹介します。

 

66.『ビッグデータ時代のマーケティングベイジアンモデリングの活用 (KS理工学専門書) 』佐藤忠彦、樋口知之著

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用

本書はデータ駆動型のマーケティングが必要とされている基本的な考え方、必要な知識、応用事例、高度な活用へのヒントまで紹介します。 

67.『改訂4版 グロービスMBAマーケティンググロービス経営大学院

グロービスMBAマーケティング

本書はよく知られている商品やサービスの実例を通じて、ブランド戦略、価格戦略、ポジショニング、セグメンテーション、CRMをはじめ、基礎から応用まで体系的に学べます。 

68.『マーケティング・エンジニアリング入門 (有斐閣アルマ)』上田雅夫、生田目崇著

マーケティング・エンジニアリング入門 (有斐閣アルマ)

本書は現代のマーケティング課題に答えるための必須のスキルとして、データの扱い方から実践的手法まで、体系的に解説します。

69.『データ・ドリブン・マーケティング――最低限知っておくべき15の指標』マーク・ジェフリー著

データ・ドリブン・マーケティング――最低限知っておくべき15の指標

本書はデータにもとづいたマーケティングの意思決定によって業績を伸ばしたい経営者・マーケティング幹部必読の書です。

 

70.『イラストで学ぶ 人工知能概論 (KS情報科学専門書) 』谷口忠大著

イラストで学ぶ 人工知能概論

本書は探索、位置推定、学習と認識、言語と論理の概要をわかりやすく解説します。

71.『人工知能はどのようにして 「名人」を超えたのか?』山本一成著

人工知能はどのようにして 「名人」を超えたのか?

本書は目からウロコの解説の連続で、既存のどんな人工知能の解説書よりも面白くてわかりやすい、必読の1冊となっています。

72.『人工知能は人間を超えるか ディープラーニングの先にあるもの』松尾豊著

人工知能は人間を超えるか ディープラーニングの先にあるもの

本書はトップクラスの人工知能学者が語る、知的興奮に満ちた一冊です。 

73.『人工知能入門』小高知宏著

人工知能入門

本書は探索による問題解決、知識表現と推論、学習、自然言語処理人工知能という学問領域を構成する基本的分野を網羅しています。

 

  • データ可視化

74.『ビジュアライジング・データ ―Processingによる情報視覚化手法』Ben Fry

ビジュアライジング・データ ―Processingによる情報視覚化手法

本書は地図情報・階層ファイルシステム・リスト・グラフ構造・時系列データなど、さまざまなデータの収集・解析手法から対話的な視覚的手法・プログラミングテクニックまでを豊富な実例を用いて詳しく解説しています。

75.『ビューティフルビジュアライゼーション』オライリージャパン

ビューティフルビジュアライゼーション

本書では学者や技術者、芸術家、分析の専門家など異なる立場でそれぞれのプロジェクトに取り組むその道のプロによるさまざまなビジュアライゼーション手法やツールを紹介します。

 

76.『PythonによるWebスクレイピング』Ryan Mitchell著

PythonによるWebスクレイピング

本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。

77.『Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド』加藤耕太著

Pythonクローリング&スクレイピング

本書は基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習などの処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。

 

78.『ビッグデータの正体 情報の産業革命が世界のすべてを変える』講談社

ビッグデータの正体 情報の産業革命が世界のすべてを変える

本書は企業はいかに新たな価値を生み出すことができるのか、人々は物事の認知のあり方をどのように変える必要があるのか―大胆な主張と見事な語り口でその答えを示しています。

79.『IoT時代のビッグデータビジネス革命』インプレス

IoT時代のビッグデータビジネス革命

本書は、スマートシティとビッグデータを国際通念に合わせて解説し、海外でのビジネスを行う際に、間違えて戦わないようにしたいという観点にこだわった構成となっています。

80.『ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界』西田圭介著

ビッグデータを支える技術 刻々とデータが脈打つ自動化の世界

本書ではこのエンジニアリングの問題に主軸を置き、可視化を例に、一連のデータ処理に必要な要素技術を整理しデータを効率良く扱うための土台を作り、その上でシステムの自動化をサポートする種々の技術を追っていきます。

オルタナティブ・データ(代替データ)とは?どのように使えるか?

f:id:octoparse:20190812131011j:plain
Photo by Franki Chamaki on Unsplash

  

オルタナティブ・データ(代替データ)とは? 

オルタナティブ・データ(代替データ)は、大規模で複雑なメトリックであるため、多くの場合、ビッグデータの一種としても認識されています。これらのデータセットは通常、Excelで簡単に処理できる従来のデータよりもアクセスしにくく、構造化されています。 代替データは、主にヘッジファンドやその他の金融業界で採用されています。

 

この情報爆発時代においては、従来のデータソースは、もはや金融業界の投資分析とリスク管理のニーズを満たすことができません。それに合わせて由来した代替データはさまざまな角度からデータを抽出して、予期できないリスクと潜在的な投資機会を見極めることが重要です。 

 

f:id:octoparse:20190812131016p:plain 

 

なぜ代替データはそれほど魅力的なのか?

 

代替データはなぜ投資家にとって魅力的なものになっているかに疑問を持っていませんか。モバイルデータプロバイダーのThasosは、テスラの工場でスマートフォンバイスから発生した数兆の地理座標を収集し、2018年6月から10月にかけて夜間シフトが30%増加したことを発見しました。その後、Thasosはテスラの株価が上昇すると推測しました。予想どおり、Tesla Model 3の生産量は2倍になり、シェアは9.1%増加しました。 Thasosがトレーダーが在庫移動を予測するのに使用したのは、代替データです。データは直接または関連しているようには見えませんが、戦略的洞察にとって重要です。

  

最も一般的な代替データは次のとおりです。

f:id:octoparse:20190812131017j:plain

1.Webデータ:特定の期間における各アイテムの販売数量と価格に関するeコマースWebサイトのWebデータをスクレイピングします。この情報から、セルサイド企業と小売業者は、次のシーズンに向けて販売するアイテムを決定できます。

2.Webトラフィック:ユーザーの訪問時間、ユーザー数、およびWebページでのユーザーアクティビティ。これらのデータは、マーケティング担当者が消費者の購買決定をオンラインに移行するのに役立ちます。

3.地理位置:地元の小売店の駐車場の衛星画像データは、地元の経済を測定します。  

 

代替データを取得する方法 

代替データを予測することはチャンレジに富むことです。適切な技術サポートのない、長くて退屈なプロセスであるため、現在のところ、代替データを取得するためのベストプラクティスは、通常Webスクレイピングを使用することです。しかし、人々がデータを取得できない場合があるいくつかの障害があります:

1.高い料金:貴重なデータを取得するには費用がかかります。Thasosの創立者であるスキビスキー氏は、一部の顧客は年間100万ドル以上を支払っていると結論付けました。

2.長時間:一部の代替データには、より長い期間が必要でした。一部の企業では、全期間にわたって資金を調達する資本がない。

3.データ値:経営者は、データがもたらす可能性のある資産を確信していません。急にトレンドを追うと、事業は借金になる可能性があります。

 

Webスクレイピングはどのように役立ちますか? 

代替データプロバイダーの数は、ここ10年間で増加しています。この調査は、フリーランスのデータプロバイダーのほとんどは高校学歴であることを示しています。企業がさまざまなソースから大量のデータを取得することは、コンピューティングと法律上の複雑さのために非常に困難な場合があります。これは、データプロバイダーを選択する際の投資決定にリスクがあり、苦痛を伴う場合があります。予算のある企業にとって、Webスクレイピングはデータを取得するための安価な代替手段です。また、不正確なリスクは、データソースプロバイダーからの二次データよりもはるかに低くなります。

f:id:octoparse:20190812131018p:plain

From: alternativedata.org

Webスクレイピングにより、データ抽出プロセスが自動化され、希望どおりにデータをスクレイピングできます。Octoparseは、世界500大企業に世界クラスのサービスを提供する長い歴史を持つ信頼できるWebスクレイピングプロバイダーです。 また、コーディングスキルを必要としないインテリジェントなWebスクレイピングソフトウェアも提供します。このシナリオでは、Webクローラーを構築して、選択したソースからデータを取得し、APIを介してデータベースに統合できます。

 

 

2019年おすすめBIツール10選!

ビジネスインテリジェンス(英: Business Intelligence、BI)は、wikipediaによると、企業などの組織のデータを、収集・蓄積・分析・報告することで、経営上などの意思決定に役立てる手法や技術のこと。経営判断上の過去・現在・未来予測などの視点を提供する。ビジネスインテリジェンス技術で使われる一般的な機能には、データ分析、データとテキストマイニング、ビジネス業績管理(BPM)、予測分析(en)、規範分析(en)などがある。

BIツールは、情報ウェアハウスの整理、視覚化されたデータの表示、分析の構築などに使用されます。ビジネス運用には、使いやすいビジネスインテリジェンスツールが不可欠です。この記事では Octoparseを利用して、今人気となっているBI ツール20選を紹介します。 

 

f:id:octoparse:20190710120015g:plain

 

#1 Tableau

Tableauは視覚的に使いやすいデータ分析ができるBIツールです。ドラッグ&ドロップ機能を使用すると、データ構造を詳しく理解しなくても分析チャートを編集および作成できます。

f:id:octoparse:20190710120030p:plain

満足度:4.9

PC・モバイル対応:Mac/Windows Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート、ベンチマーク、予算と予測、ダッシュボード、データ分析、データの視覚化、主要業績評価指標 OLAP、パフォーマンス指標、予測分析、収益性分析、戦略的計画など。

サイト:www.tableau.com

 

#2 QlikView

QlikViewは、ユーザが自由に分析でき、業務に必要なデータを探索することができる分析プラットフォームです。QlikViewのAssociative Data Indexing Engineを使用すると、ユーザーは異なるデータベースをクリックして組み合わせることで、簡単に分析することができます。

f:id:octoparse:20190710120033p:plain

満足度:4.7

特徴キーワード:アドホックレポート、ダッシュボード、データ分析、データの可視化     

サイト:https://www.qlik.com/us/       

 

#3 SAP Business Objects

SAP BusinessObjectsは、レポーティング、分析やデータ統合など、すべてのユーザーの情報活用ニーズに応えるための適切なインタフェースおよび情報の一元管理機能が用意されているBIツールです。

f:id:octoparse:20190710120051p:plain

 

満足度:4.7

PC・モバイル対応:Mac/Windows/Android/iOS

特徴キーワード:レポート作成、モデリング、分析、ダッシュボード、ストーリー、イベント管理など。 

サイト:https://www.sap.com/index.html 

 

#4 IBM Cognos Analytics

IBM Cognos Analyticsは、拡張インテリジェンスを組み込んだセルフサービス分析プラットフォームです。インタラクティブダッシュボードはデータ分析を簡素化し、また、what-if分析、高度な分析、分析レポート、傾向分析など、さまざまな分析機能もあります。さらに、Cognos Analyticsを使用すると、ユーザーは自分のモバイルデバイスからのレポートやオフラインなども操作できます。

f:id:octoparse:20190710120059p:plain

満足度:4.6

PC・モバイル対応:Windows /iOS

特徴キーワード:自動モデリングデータソース検証、データ視覚化、レポートスケジュール設定、ナレーションなど。

サイト:https://www.ibm.com/products/cognos-analytics

 

#5 Microsoft SQL Server

Microsoft Business Intelligence Platformは、分析サービス、統合サービス、マスタデータサービス、レポートサービスなどの機能を含む1つのソリューションにすべて統合されています。Analysis ServicesとReporting Servicesは、スタンドアロンサーバーとしてインストールできます。 SharePointファームにすることもできます。

f:id:octoparse:20190710120025p:plain

満足度:4.4

PC・モバイル対応:Windows

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマーク、パフォーマンス指標など。 

サイト:https://www.microsoft.com/en-us/sql-server

 

#6 Oracle Business Intelligence

Oracle Business Intelligencは、すべての関連情報へのアクセスを提供するビジネスインテリジェンスサービスです。データマイニング、レポート作成、および分析アプリケーションを含む他のスーツにサービスを提供します。

f:id:octoparse:20190710120105p:plain

満足度:4.4

PC・モバイル対応:Windows

特徴キーワード:エンタープライズビジネスモデル、抽象化レイヤ、アドホッククエリ、アドホックレポート、インタラクティブダッシュボード、予防事業活動監視と警告、エンタープライズレポート、分布レポート、予測分析、戦略的な目標設定と追跡、データの視覚化など。

サイト:https://www.oracle.com/solutions/business-analytics/business-intelligence/

 

#7 Yellowfin

Yellowfinは、BI、分析、およびデータに関するレポートで構成される一連の製品を提供します。ユーザーは独特な視点を生み出し、ストーリーテリングという形で共同編集者と共有できます。その分析スイートは、シグナル、ダッシュボード、ストーリー、データ検出、およびデータ準備を含む5つのコンポーネントで構成されています。その上、アプリケーションにYellowfinを埋め込むこともできます。

f:id:octoparse:20190710120110p:plain

満足度:4.1

PC・モバイル対応:Windows

特徴キーワード:アドホック分析、アドホッククエリ、 アドホックレポート、ベンチマーク、戦略的計画; 傾向/問題の指標、マーケティングレポートなど。      

サイト:https://www.yellowfinbi.com/    

 

#8 WebFOCUS

WebFOCUSは企業内外にいるさまざまな人に適切な情報を届ける統合BI プラットフォームです。レポーティングからセルフサービスまで、BIに求められる機能をすべて装備。利用者のニーズはもちろん、IT部門のニーズも叶えます。

f:id:octoparse:20190710120116p:plain

満足度:4.1

PC・モバイル対応:Windows

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマーク、戦略的計画; 傾向/問題の指標、感情分析、アプリケーション開発など。

サイト:https://www.informationbuilders.com/products/bi-and-analytics-platform

 

#9 TIBCO Spotfire

TIBCO Spotfireは、データの収集、分析、視覚化などの機能を提供する1つのBIソフトウェアです。 TIBCOが他のBIソフトウェアと異なる点は、ユーザーが独自のKPIを設定し、iPhone / Androidに通知を送信して、外出先でも作業にアクセスできることです。

f:id:octoparse:20190710120122p:plain

満足度:4.1

PC・モバイル対応:Windows/ iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート、ベンチマーク、主要業績評価指標、パフォーマンス指標、アプリケーション開発、パフォーマンス指標など。

サイト:https://www.tibco.com/  

 

#10 SAS

SAS Business Intelligence SAS BIは、SASの分析とデータ統合を活用し意思決定に必要な洞察を導き出す、包括的で扱いやすいビジネス・インテリジェンス・ソリューションです。このソフトウェアは、意思決定者がビジネス指標を監視し、実用的な洞察を引き出すことを可能にするリアルタイム分析を提供します。ビジュアル分析、ビジュアル統計、オフィス分析、エンタープライズガイド、およびエンタープライズBIサーバを含む6つのモジュールで構成されています。

f:id:octoparse:20190710120128p:plain

満足度:4.0

PC・モバイル対応: Windows/Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、 アドホックレポート ダッシュボード、データソースコネクタ、データの視覚化など。 

サイト:https://www.sas.com/en_hk/home.html

 

 

#11 Targit

TARGIT Decision Suiteは、視覚的なデータ検出ツール、ビジネス分析、レポート作成、およびダッシュボードを提供する唯一のビジネスインテリジェンスプラットフォームです。CRMERPを接続して、プロセス全体をインタラクティブにします。

f:id:octoparse:20190710120132p:plain

満足度:3.9

PC・モバイル対応: Windows/Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマーク、パフォーマンス指標、予測分析、収益性分析など。

サイト:https://www.targit.com/en    

 

 

#12 Izenda Embedded BI & Analytics

Izendaはリアルタイムのデータ発見を可能にします。アプリケーションにBI機能と分析機能を必要とする企業向けの組み込みプラットフォームです。WebブラウザまたはモバイルデバイスからIzendaにアクセスできます。RubyPythonJava、.NET、PHPなどとの統合を可能にする柔軟なアーキテクチャも組み込まれています。

f:id:octoparse:20190710120136p:plain

満足度:3.9

PC・モバイル対応: Windows/Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマーク、データの視覚化、パフォーマンス指標など。

サイト: www.izenda.com

 

#13 MicroStrategy

企業のレポート作成やデータの発見からモバイルの生産性やリアルタイムのテレメトリまで、MicroStrategyだけが、組織のデータを実際のインテリジェンスに変換し、Intelligent Enterpriseへと進化させるために必要な幅広い機能を組織に提供します。

f:id:octoparse:20190710120142p:plain

満足度:3.9

PC・モバイル対応: Windows/Android/iOS

特徴キーワード:データブレンド、データクレンジング、データマイニング、ビジュアル分析 ウィジェット ダッシュボードの作成 フィルター処理されたビュー、リレーショナル表示、ウェブサイト分析など。 

サイト:https://www.microstrategy.com/us 

 

#14 Board

Boardは、パフォーマンス管理とビジネス分析を組み合わせたフル機能のBIシステムです。これにより、ユーザーはデータソースを取得してレポートを作成できます。多国籍企業が別の言語でレポートを配信するための多言語パッケージもあります。データ収集機能とデータ分析機能により、企業は洞察に満ちた決定を下すことができます。

f:id:octoparse:20190710120146p:plain

満足度:3.7

PC・モバイル対応: Windows/Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマークなど。

サイト:https://www.board.com/en

 

#15 Sisense

Sisenseは、2018年および2018年にSupreme Software Awardを受賞し、最優秀ビジネスインテリジェンス賞を受賞しました。ドラッグアンドドロップ機能を使用して、ダッシュボードからデータを視覚化できます。データを洞察に富んだグラフやチャートに変換します。それは、ソニーESPNそしてNASAのようなフォーチュン500大企業を含む様々な規模のビジネスのための優れた能力を持っています。

f:id:octoparse:20190710120150p:plain

満足度:3.6

PC・モバイル対応: Windows/Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマークなど。

サイト:https://www.sisense.com/

 

#16 Statsbot

Statsbotを使用すると、他のBIツールのように複雑な設定をすることなく、SQLデータベースからビジネスメトリクスを視覚化できます。Mixpanel、SalesforceSQLサーバーへの簡単な接続、バージョン管理やコードの再利用などの技術的手法を適用して、データに対してクリーンで保守可能な変換ロジックを構築することもできます。内部最適化エンジンを使用すると、依存関係が自動的に計算され、どのクエリセットを具体化するかが決定されます。さらに、ビジネスリクエストごとに特別なSQLクエリを記述する必要はありません。

f:id:octoparse:20190710120157p:plain

満足度:3.4

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポートなど。

サイト:https://statsbot.co/

 

#17 Panorama - Necto

Necto Telecomはデータの下に隠された傾向を明らかにすることができます。それは外出先でビジネスメトリクスに追いつくためにビジネスの意思決定者にとって非常に便利ですKPIのアラートと通知を設定することができます。 複数のデータソースを処理し、それらを1つにまとめることができます。 あなたが複雑な分析と報告を構築する必要があるならば、それは良い選択です。

f:id:octoparse:20190710120203p:plain

満足度:3.3

PC・モバイル対応: Windows/Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマークなど。

サイト: http://www.panorama.com/necto/

 

#18 InetSoft 

InetSoftは、データビジュアライゼーションを使用してオンザフライでのデータモデリングを実現します。これにより、インタラクティブダッシュボードやピクセルパーフェクトレポートなどのデータビューをすばやく繰り返し作成することができます。

f:id:octoparse:20190710120207p:plain

満足度:3.1

PC・モバイル対応:Mac/Windows/Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ダッシュボードなど。

サイト:https://www.inetsoft.com/

 

#19 Birst

Birstは、様々な情報に基づいた決定を下すのに役立つクラウドBIおよび分析ソリューションです。その適応性のあるユーザーエクスペリエンスにより、多数のセルフサービス分析とデータ消費オプションが得られます。

f:id:octoparse:20190710120213p:plain

満足度:3.0

PC・モバイル対応:Android/iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマーク、キャンペーン管理、ダッシュボードの作成、マーケティングレポートなど。

サイト:https://www.birst.com/

 

#20 Domo

Domoはクラウドベースのシステムなので、ダウンロードやインストールは必要ありません。エンジンで抽出、変換、ロード(ELT)を操作することができます。また、オンプレミスのデータを統合できるようにするさまざまなアプリケーションコネクタも用意されています。

f:id:octoparse:20190710120217p:plain



満足度:3.0

PC・モバイル対応:iOS

特徴キーワード:アドホック分析、アドホッククエリ、アドホックレポート ベンチマークなど。

サイト:https://www.domo.com/

 

結論

これらのBIツールはすべて、企業が使用するための豊富な機能セットを提供します。絶え間なく変化するマーケティングの動向についていくためには、意思決定者が大量のデータの中から洞察を得ることが不可欠です。情報ウェアハウスを構築するには、データ量を増やすためにOctoparseのようなWebスクレイピングツールが必要です。

 

Webスクレイピングとデータ分析は、ビジネスの成長にどのように役立ちますか?

f:id:octoparse:20190807124145p:plain


データ分析が我々の生活に一定的な影響をもたらしています。ビジネスや企業はデータによって顧客の行動や市場の要求を分析することが簡単になりました。

Wal-Martは、Amazonと競合するために、統計分析と意味分析に基づく「Polaris」という検索エンジンを開発しました。Polarisは、Facebookから、pined/liked/savedなどの商品に関するメッセージを受け取ることができます。これでWal-Martは消費者の動向を一刻も早く把握することができます。

それにひかれて、私もデータからユーザーのログイン頻度と販売数この2つのの間にいったいどういう關係性があるのかをを分析してみました。

以下では、それらのデータを取得する方法と、データの分析について説明します。

 

Part 1、ユーザー記録データの収集

オンラインユーザー管理システムには多くのユーザー記録データを保存しているはずです。データを構造化してエクスポートし、さらに分析するためにローカル側に保存する必要があります。企業にとって、プログラミングによってWebサイトからデータをクロールするコストは予算オーバーになる可能性があります。この記事ではオンライン管理システムからデータをクロールする方法について紹介します。

データをクロールするにはコーディングする必要がなく、無料WebスクレイピングツールOctoparseが必要です。ドラッグとクリックするだけで、目的のデータを簡単に収集できます。オンライン管理システムからデータを抽出する方法は不便なので、今度は別のサイトを利用してデータを抽出する方法と、実際にオンライン管理システムから抽出したデータに基づいた分析を説明します。

f:id:octoparse:20190807124158j:plain

 

手順:

ステップ1、ターゲットURLを入力して下さい。内蔵ブラウザでWebページを完全に読み込まれるのを待ちます。

ステップ2、ページネーションループを設定します。Octoparseは自動的に次のページに渡ります。

ステップ3、下記画像の中にある赤枠のように、全てのターゲットデータを含むループアイテムを作成します。

ステップ4、データフィールドを選択します。このサイトは商品名、商品価格とポイントですが、オンライン管理システムの場合ではログイン頻度、購入品番やユーザーIDなどそれぞれにニーズに合わせて選択してください。

ステップ5、指示に従って次のステップをクリックし、「ローカル抽出」を選択します。データがどのように短期間で抽出されるのかをローカル抽出画面で確認できます。

f:id:octoparse:20190807124734p:plain

OctoparseではExcelCSV、HTMLなどを含むさまざまな形式にデータを抽出できます。

f:id:octoparse:20190807124242p:plain

 

Part 2、データ分析

(これからの内容は全て実際のオンライン管理システムから収集されたデータに基づいた分析です。上記のサイトから抽出されたデータとは無関係です。)

ステップ1、推測

データをExcelにエクスポートしましたので、これら2つの要素(ログイン頻度、販売数)が実際に互いに關係性があるかどうかを調べます。データを再編成して以下ようになります。

f:id:octoparse:20190807124252p:plain

取得されたデータに基づき以下のような散布図を作って、分析したいデータ(ログイン頻度、購入数)が規則的に分布していることが一見でわかります。購入数のほとんどはログイン頻度の2〜5の間に集まっています。これは、ログイン頻度が2〜5の範囲にある人々がより高い購入傾向を示すというシナリオを想定しています。さらに、赤線から見れば、ログイン頻度がこの範囲内であるほど、顧客が購入する商品の数が多くなると予測できます。 しかし、これは単なる主観的な推測です。この仮説を試すためにさらに進む必要があります。

 

f:id:octoparse:20190807124254p:plain

 

ステップ2、統計的仮説検定分析(P値)

ユーザーのログイン頻度と購入数の間に一定的な関係があると想定してみましょう。

まず、ログイン頻度は2~5以内だと仮定しました。

次に、ログイン頻度2、3、5のデータに統計的仮説検定分析を行います。

それから、データ全体からランダムサンプリングを行い、22のサンプルデータを選択します。

f:id:octoparse:20190807124307p:plain

f:id:octoparse:20190807124305p:plain
その後、Matlabまたは他の利用可能なデータ分析ツールを使用して単一因子分散分析を実行できます。有意水準α、すなわちタイプIエラーを起こす確率を0.05に設定します。 

終結果は以下の通りです。3つのグループは平均値が異なっていることがわかります。サンプルグループの違いは、実験のサンプリングエラーによって発生したと仮設します。

P値をαと比較すると、P値がα未満であることがわかります。したがって、これら3つのグループに違いがあるという対立仮説を支持して帰無仮説を棄却できます。さらに、ユーザーの購買数が、ログイン頻度の影響を受けることが検証できます。

 

f:id:octoparse:20190807124310p:plain

 

上記の分析から、指定されたログイン頻度を持つターゲットユーザーにもっと目を向け、目標と予算計画に焦点を合わせる分析に役立つことができます。

Webスクレイピングに関する10のよくある誤解

世間ではWebスクレイピングに関する多くの誤解も見られるようになっています。特に多く見られる10の誤解として、以下が挙げられ、説明します。

 

1. Webスクレイピングは違法だ

スクレイピングは違法だ」ということもよく耳にしたことがあり、実際のところはどうなんだろう?Webスクレイピングそのものは違法ではなく、データ分析を目的とし、新たに自社のデータベースとして活用する場合は違法とはなりません。10のよくある誤解の中でも、特に大きな誤解を与えるものは、この誤解です。しかし、著作権を侵害したり、スクレイピングを行うWebサイトの規約に違反すると違法とみなされ、法的措置をとられる可能性があります。調査によると、Webスクレイピングによるコンテンツの悪用により、オンライン収益の2%が失われる可能性があります。

Webスクレイピングには、その適用に対処するための明確な法律や用語がありませんが、スクレイピングを行う際に気を付けなければ違法になってしまう場合が3つあります。

 

2. WebスクレイピングとWebクローリングは同じだ

WebスクレイピングとWebクローリングは、2つの関連概念です。Webスクレイピングには、ターゲットとされたWebページからの具体的なデータ抽出、たとえば、セールスリスト、物件情報、商品在庫に関するデータの抽出が含まれます。一方的に、WebクローリングはWebサイトをGoogleなどの検索結果に表示させるため、クローラーというbotにサイトを知ってもらうことです。

 

3. 任意のWebサイトでもスクレイピングできる

多くの場合、ユーザー名、パスワードなどの個人情報はスクレイピングできません。しかしメールアドレス、Facebookの投稿、LinkedInの企業情報などのスクレイピングニーズもたくさんあります。LinkedInのデータをスクレイピングした企業とLinkedInの法的紛争は大きな話題となっています。ですからWebサイトをスクレイピングするする前に、必ずrobots.txtを確認してください。Robots.txtは、Webサイトがスクレイピングできるかどうか、またはWebサイトの所有者が指定したとおりにスクレイピングする方法をクローラー、ボット、スパイダに伝えるテキストファイルです。そのため、Webスクレイピング中にブロックされないようにrobots.txtファイルを理解することが重要です。

 

4. プログラミング方法を知っておく必要がある

普通には、スクレイピングはプログラミングにより実現するのです。しかし、今では、プログラミングしなくても、同じく機能できるWebスクレイピングツール(データ抽出ツール)がたくさん開発されました。スクレイピングツールは、マーケティング担当者、統計学者、財務コンサルタント、研究者、ジャーナリストなどの非プログラマーにとって非常に便利です。それに、OctoparseWebスクレイピングテンプレートという機能を提供します。それはFacebookTwitterAmazon、eBay、Instagramなどを含む30以上のWebサイトをカバーしています。起動で必要なのはキーワード/ URLなどのパラメータを入力することだけです。必要なデータを抽出するのに効率的で便利です。

 

5. スクレイピングしたデータは自由に使える

先ほど言った通り、データ分析を目的とし、新たに自社のデータベースとしてスクレイピングしたデータを活用する場合は合法です。しかし、著作権を侵害したり、Webサイトの規約に違反したり、機密情報を収集すると違法とはなります。たとえば、許可なく個人の連絡先情報をスクレイピングし、それを第三者に売却して利益を得ることは違法です。その上、元ソースを提供せずにスクレイピングされたコンテンツをあなた自身のものとして再パッケージ化することも倫理的ではありません。法律に従って、スパム、盗作、またはデータの不正使用は禁止されているので、法律に従うべきです。

 

6. Webスクレーパーは万能だ

同じWebスクレーパーで同じサイトを2度目にスクレイピングするとき、データを抽出できないことがありますか?それは多くの理由があります。時には、Webサイトはレイアウトや構造が更新される場合もあります。スクレーパーを疑わしいボットとして識別することによって引き起こされることもあります。地理的な場所やマシンへのアクセスが異なるために発生することもあります。この場合、調整を設定する前にWebスクレーパがWebサイトの解析に失敗するのは正常なことです。

 

7. 速い速度でスクレイピングできる

Webクローラーがいかに速いか、数秒でデータを集めることができるのを表示している広告をよく見えますね。それは良さそうですが、アクセスリクエストがはや過ぎると、Webサーバーが過負荷になり、サーバーがクラッシュする可能性があります。過去に、スクレイピングを行って、サーバーに負荷をかけてしまった、という疑いで逮捕された事例(岡崎市中央図書館事件)があります。Webサイトがスクレイピング可能かどうかわからない場合は、Webスクレイピングサービスプロバイダにお問い合わせください。

 

8. APIとWebスクレイピングは同じだ

APIは、データリクエストをWebサーバーに送信して対象データを取得するためのチャネルのようなものです。APIはHTTPプロトコルを介してデータをJSON形式で返します。たとえば、Facebook APITwitter APIInstagram APIなどです。ただし、要求したデータをすべて取得できるわけではありません。Webスクレイピングを使用すると、Webサイトとやり取りできるため、プロセスを視覚化できます。OctoparseにはWebスクレイピングテンプレートがあり、キーワード/ URLなどのパラメータを入力することによってデータ抽出はさらに便利です。

 

9. Web全体からデータを抽出できる

Webスクレイピングは、ワールドワイドウェブ全体または少なくとも数十万ものWebサイトからデータをスクレイピングするために使用できると多くの人が信じています。これは実際には実現不可能です。異なるWebサイトは同じページ構造に従っていないため、1つのWebスクレーパーがすべてのページをスクレイピングするののは無理です。

 

10. Webスクレイピングはビジネスでのみ使える

Webスクレイピングはさまざまな分野で広く使用されています。見込み顧客生成、価格監視、ビジネスの市場分析に加えて、学生は、Google scholarから研究を行うこともできます。不動産業者は住宅研究を行い、住宅市場を予測することができます。それに、ブランドを宣伝するには、YoutubeインフルエンサーTwitterエバンジェリストを見つけることもできます。あるいは、ニュースメディアとRSSフィードスクレイピングすることによってニューストピックを集めることも可能です。

 

いかがでしたか?今回の紹介はスクレイピングを客観的に見つめ直すいい機会になるだろう。

2019年おすすめのデータ分析・データ可視化ツール30選!

データの視覚化は、情報やデータを見える化することによって、人々が効果的に洞察を得ることに役立ちます。データ視覚化ツールは、グラフやチャートなどを利用してデータをより分かりやすく読み上げます。多くのデータ視覚化ツールから最適なのはどれですか。本記事では2019年おすすめのデータ可視化ツール30選を紹介します。あなたのニーズに合わせて一番ふさわしいツールを選びましょう。

 

ノーコード型ツール

1.チャートとグラフ

1) RAWGraphs

RAWGraphsは、オープンソースのWebデータ視覚化ツールです。Microsoft ExcelおよびApple Numbersのようなスプレッドシートと、Adobe Illustrator とSketchのようなベクトルグラフィックエディタの利用を結びつけることを目的としています。RAWGraphにデータをインポートして、グラフをカスタマイズし、SVGPNGの画像をエクスポートするだけです。さらに、RAWにインポートされたデータはWeb側に処理されるので、データの安全性が保証されます。

f:id:octoparse:20190730110405j:plain

2) ChartBlocks
ChartBlocksはシンプルなオンライングラフ作成ツールであり、データインポートとチャートデザインの仕方はデータインポートガイドに従えば簡単にできます。SNS上でグラフを共有したり、グラフ編集可能なベクトルグラフィックとしてエクスポートしたり、グラフをWebサイトに埋め込むこともできます。現在、無料版、プロ版とエリート版が提供されています。

 

f:id:octoparse:20190730110418j:plain

コマーシャル - 個人または企業用

データ視覚化ツールの中には、個人、小規模チーム、および組織に異なる有料プランを提供するものがあります。これらのツールは無料のものよりも多くの機能と技術サポートを持っています。

 

3) Tableau
Tableauは世界中で有名なデータ視覚化ツールとして、人々にデータを効果的な見える化にするサービスを提供しています。Tableauは非常に強力で柔軟な分析プラットフォームで、プログラミングなどの専門知識・スキル不要で複数のユーザのコラボレーションも可能です。また、ブラウザ・デスクトップ・モバイルからデータを使ったり、アプリケーションに埋め込んだりすることもできます。

 

f:id:octoparse:20190730110420j:plain

4) Power BI
Power BIは、Microsoft社が開発したBIツールです。ExcelCSVOracle、Webページ、Googleアナリティクスなど、どんなデータにも接続できます。誰でも利用でき、どんなデータでも対応可能なので、欲しいデータをすぐに取得できます。利用制限付き無料版、プロプランと高級機能付きプレミアムプランの3種類を提供しています。

 

f:id:octoparse:20190730110422j:plain

5) QlikView
QlikViewは、主にビジネスユーザーに焦点を当てたビジネススマートツールであり、ユーザーはデータを簡単に分析できます。データセット内で検索したいキーワードを入力するだけで、関連情報やデータを見つけることができます。個々のユーザーに無料版でも強力な機能を利用できます。

f:id:octoparse:20190730110424j:plain

 

6) Datawrapper
Datawrapperは、オンラインのデータ可視化ツールであり、創立者の多くは記者出身であるため、プラグラミングの知識を持たない記者を主な対象として、グラフや地図の作成機能をサポートしています。記者はDatawrapperを利用すれば、豊かなグラフを作成して読者の注目を集め、内容をよりよく説明することができます。さらに、 サイトのブログにグラフの設計経験や裏にある様々なストーリーを共有しています。

 

f:id:octoparse:20190730110426j:plain

7) Visme

Vismeは、プレゼンテーション、グラフ、レポートを作成するためのアイコン、テンプレート、フォントをサポートし、さらに動画やデータのリアルタイム更新もできます。3つのステップだけで、ユーザはInstagram、LinkedInやYouTubeなどのSNS用のグラフが作成できます。Vismeを使えば、モバイル端末の制限がなく、内容をいつでもチェックすることができます。無料プランの他に、教育と非営利団体向けに割引を提供します。

 

f:id:octoparse:20190730110507j:plain

コマースー企業のみ

8) Grow
Growは、企業専用のBIツールです。企業全員がデータを追跡し、独自のダッシュボードを作成できます。Growは競合他社の8倍の処理速度に達し、300以上のレポートデータのリアルタイム更新もビジネス目的でサポートされます。 

f:id:octoparse:20190730110510j:plain

 

9) iCharts
iChartsは、NetSuiteとGoogle Cloudユーザー向けのBIツールです。iCharts BIをNetSuiteのダッシュボードに追加することで、データを分析し、毎週頻度でレポートを自動的に更新できます。Google Cloudユーザーにとって強力で直感的な機能を備えた、iChartはドラッグアンドドロップ操作だけでデータにドリルインできます。

 

f:id:octoparse:20190730110514j:plain

2. インフォグラフィック

数回のクリックだけでソーシャルネットワークインフォグラフィックを作成することができます。視覚化ツールによってインフォグラフィックを作成することは非常に簡単で便利です。

10) Infogram
インフォグラフィックを作成できるブラウザベースのサービスです。無料テンプレートを使ってインフォグラフィック、チャート、およびマップを作成できます。ダウンロードするか、またはWebサイトにソースコードを埋め込むこともできます。インフォグラムは非常に強力で人気があり、無料の基本計画を除いて、それはまたプロの計画、事業計画などを提供しています。

 

f:id:octoparse:20190730110531j:plain

11) Visual.ly

Visual.lyはマーケティングためのインフォグラフィック、ビデオ、レポート、および電子ブックを簡単に作成できます。ユーザーはVisual.lyに数多くの優れたインフォグラフィックをアップロードしたので、いつでも参考できます。SNS上でかなり人気を持っています。

 

f:id:octoparse:20190730110535j:plain

3. マップ

コードを書けなくても以下のソフトを利用すれば、地理情報レポートを生成できます。

12) InstantAtlas
InstantAtlasは、可視化マップレポートを生成するサービスであり、プロフェッショナルなサポートも提供しています。これにより、情報アナリストや研究者は、統計データとマップを組み合わせた動的でインタラクティブなパップレポートを作成できます。

 

f:id:octoparse:20190730110538j:plain

4. ネットワークグラフ

ネットワークのデータを視覚化するネットワークグラフの複雑なノードとリーフを生成するには専門のツールが必要です。

 

13) Gephi
Gephiは、あらゆる種類のグラフやネットワークを対象とした、主要なオープンソースの視覚化ソフトです。SNSでのフォロー状況や選挙状況などを可視化を簡単にできます。

 

f:id:octoparse:20190730110604j:plain

5. 数学のグラフ

数学のグラフは教育で広く使用されており、誰でもこれらのグラフをオンラインで簡単に生成できます。

 

14) Wolfram|Alpha
Wolfram | Alphaは入力した質問に対してエンジン内に構造されたデータに基づいて解答を返してくれる計算知識エンジンです。Wolfram | Alphaの基礎操作とデータ処理を行うMathematicaは 数値的、記号的計算をサポートし、科学的および数学的グラフィックスの強力なグラフィカル可視化を持っています。したがって、Wolfram | Alphaはさまざまな数学的問題に答え、その答えを明確で美しいグラフでユーザに提示することができます。Wolfram | Alpha Proにアップグレードしてデータや画像をアップロードして分析することもできます。

f:id:octoparse:20190730110606j:plain

エンジニア向けツール

エンジニアはデータを統合し、チャートライブラリを使ってこれらのデータを美しく複雑なチャートやグラフに変換します。オンラインで利用可能なチャートライブラリが何百もあります。その中の多くはウェブとモバイルデバイスディスプレイのためにJavaScriptで実行されます。

 

1. チャートとグラフ 

15) ECharts
EChartsは、"Enterprise Charts"の略で、JavaScriptで実現されたオープンソースの視覚化ライブラリです。ドラッグアンドドロップによるデータの再計算、データビュー、バリュードメインローミングなどの革新的な機能の多くは、ユーザーとのインタラクティブを大幅に向上させ、データをマイニングおよび統合する機能を提供します。

 

f:id:octoparse:20190730110648j:plain

16) D3.js
D3.jsは、JavaScript性の可視化ライブラリであり、最初の習得は複雑ですが、強力で柔軟性があり、深く学ぶ価値があります。

 

f:id:octoparse:20190730110655p:plain

17) Plot.ly
Plotlyは、インタラクティブなグラフを作成し、多種多様なグラフやマップを作成するためのよく知られている強力なデータ視覚化フレームワークです。等高線図および3Dチャートなどあまり見かけないグラフを作成できます。Plotlyのチームは、今最も急速に成長しているR、Python、およびJavaScript製のオープンソースの視覚化ライブラリを保守しています。同時に企業にPythonを利用して作成した最新の豊富な分析アプリケーションを提供します。

 

f:id:octoparse:20190730110709j:plain

18) Chart.js
Chart.jsは、デザイナーや開発者向けのオープンソースJavaScriptグラフライブラリであります。データにカスタマイズ可能な8つの動的視覚化の表示方法を提供します。Chart.jsは、HTML 5 Canvasで優れたレスポンシブグラフを作れます。Chart.jsではさまざまな種類のグラフを組み合わせたり、日付、対数、またはスケールデータをプロットできます。データの変更か色の更新の時に利用できる動画がたくさんあります。

 

f:id:octoparse:20190730110719p:plain

19) Google Charts
Google もグラフライブラリのGoogle Chartsを開発しました。開発者に無償で利用していただくだけでなく、3年間の下位互換性の保証も完全に無償で提供しています。単純なJavaScriptをWebページに埋め込むことで、さまざまなチャートテンプレートから選択してカスタマイズして、独自のインタラクティブチャートを作成できます。

 

f:id:octoparse:20190730110731j:plain

20) Ember Charts
Ember ChartsはEmber.jsとd3.jsフレームワークで構築されたオープンソースのチャート作成ライブラリであり、拡張性に優れています。Ember Chartsは主に時系列図、ヒストグラム、円グラフ、散布図を描画します。Ember.js開発チームと一緒に、Ember Chartsはグラフィックスのインタラクションに焦点を当てて、常に強力なエラー処理機能を備えています。

 

f:id:octoparse:20190730110743j:plain

21) Chartist.js
Chartist.jsは使いやすて、即応性と柔軟性に富んだOSSのグラフライブラリであり、カスタマイズ可能な応答グラフを作成するために使用できます。

 

f:id:octoparse:20190730110802p:plain

商業場面の利用

テクニカルサポートを利用してビジネス上の目的で複雑なグラフをたくさん表示したい場合は、強力なチャートライブラリのライセンスを購入することをお勧めします。

 

22) Highcharts
JavaScriptOSSグラフライブラリであり、インタラクティブなグラフをWebサイトやWebアプリケーションに簡単に追加でき、個人学習、個人Webサイト、および非営利目的の使用に無料で利用できます。さらに、HighchartsはD3.jsよりも互換性があり、最新のブラウザではSVGを使用し、グラフィック描画用のIEブラウザの下位バージョンではVMLを使用して、コンピュータのすべてのモバイルデバイスおよびブラウザで使用できます。Highchartsを商用または政府のWebサイト、イントラネット、またはプロジェクトで実行したい場合は、プレミアムサポートとともにライセンスを購入する必要があります。

 

f:id:octoparse:20190730110817j:plain

23) FusionCharts
FusionChartsは、無料バージョンのほかに、強力なJavaScriptのグラフライブラリと直接の技術サポートにより有料サービスを提供します。FusionChartsはインタラクティブなデータ視覚化を通して素晴らしいグラフと地図を生成することによって開発者の負担を減らすことができます。

f:id:octoparse:20190730110830j:plain

24) ZingChart
ZingChartは、主にSaaSサービスとしてEnterprise向けにJavaScriptで実装された有料のグラフライブラリです。1秒以内に10万データポイントを表示できるビッグデータグラフを提供します。あらゆるデバイスサイズに対応する応答グラフやインタラクティブグラフもサポートされています。個々のユーザーはZingChartの無料版を使用することができます。

 

f:id:octoparse:20190730110844j:plain

2.地図

開発者がWebサイトでインタラクティブな地図を表示したい場合は、JavaScriptの地図ライブラリが不可欠です。

 

25) Leaflet
Leafletは、JavaScriptOSSグラフライブラリであり、モバイル向けのインタラクティブマップ用です。それはすべての主要なデスクトップとモバイルプラットフォームにわたって効率的に働き、たくさんのプラグインで拡張することができます。

 

f:id:octoparse:20190730110858j:plain

26) OpenLayers
OpenLayersは、インタラクティブなWebマップを作成するためのクライアントサイドOSSグラフライブラリです。ほとんどのブラウザをサポートし、何も設定せずに使用することができます。業界で最も広く使用されているマップエンジンの1つとして、OpenLayersは主要なGISベンダーと大多数のWeb GIS開発者によって採用されています。

 

f:id:octoparse:20190730110911j:plain

27) Kartograph
Kartographは、インタラクティブな地図アプリケーションを構築するためのシンプルで軽量なフレームワークです。デザイナーやデータジャーナリストのニーズを念頭に置いて作成されました。Kartographは2つのライブラリです。Kartograph.pyは美しくコンパクトなSVGマップを生成する強力なPythonライブラリである一方で、Kartograph.jsはすべての主要ブラウザで動作するインタラクティブマップを作成できるJSライブラリです。

 

f:id:octoparse:20190730110922j:plain

28) CARTO
CARTO(元CartoDB)は、位置データを自動的に検出して分析するための、オープンソースの強力で直感的なプラットフォームです。 CARTOを使用すると、地理空間データをアップロードしてデータセットまたはインタラクティブマップに視覚化することができます。

 

f:id:octoparse:20190730110934j:plain

3. ネットワークグラフ

ソーシャルネットワークを視覚化するためのソフトウェアであるGephiは、リレーショナルデータを扱う人々の間で非常に人気があります。また、ネットワーク表示用のJavaScriptチャートライブラリもあります。

 

29) Sigma
Sigmaはグラフ描画専用の対話型可視化JavaScriptライブラリであり、ネットワークの単純な対話型出版物から動的なネットワーク探索を特徴とするリッチWebアプリケーションまで、Webページにネットワークを表示できるように支援することを目的としているため、ビッグデータネットワークの視覚化に非常に役立ちます。 Gephiからグラフをエクスポートする場合は、Sigmaを使ってWebページにグラフを表示できます。

 

f:id:octoparse:20190730110957j:plain

4. 株価チャート

オンラインの株価情報は、時系列と密なデータをサポートする特別なチャートライブラリに表示されます。

 

30) dygraphs
dygraphsは、主に株価チャートや資金調達チャートに使用される、高速で柔軟J avaScriptのOSSグラフライブラリです。インタラクティブでスケーラブルな時系列チャートを作成し、ユーザーが高密度のデータセットを調べたり解釈したりできるようにします。dygraphsはデフォルトのマウスオーバータグ、ズーム、パンと非常にインタラクティブで、同期や範囲セレクタなどの他の便利なインタラクティブ機能もあります。

 

f:id:octoparse:20190730111001j:plain

結論

上記のツールのほか、データ分析に役立つツールはまだたくさんあります。これらのデータ視覚化ツールを使ってから、あなたに一番適しているツールがどれなのかがわかります。データ分析に必要なデータはどこから取得すれば良いのかという疑問があるのではないですか。ご安心ください。全てのデータ分析にはデータスクレイピングサービスもそれらのツールと同じように盛んになっています。