Googleマップから座標(緯度・経度)を取得する方法ご紹介

「座標」の意味は点の位置を表すのに使ういくつかの数の組のことです。地球のどの場所でも座標(すなわち経度と緯度)を確認できます。先日Googleマップのデータをスクレイピングする方法を紹介して、この記事では、Googleマップで場所の緯度・経度の座標をすばやく抽出する方法を紹介します。

実際に、Googleマップの座標がURL内に隠されています。そのことに気付くのは難しいですね。この場合、まずはその場所のURLを抽出し、正規表現により座標を見つける必要があります。東京タワーを例として説明いたします。

まず、ブラウザでGoogleマップを開き、検索ボックスに「東京タワー」を入力し検索します。

tokyo-tower

ページの読み込みが完了したら、URLで座標を探します。座標は「@」記号の後ろにあります。

@sign

次に、URLの抽出を始めます。今回使うツールはOctoparseです。Octoparseは、特に初心者にとって直感的な操作画面で、使いやすいWebスクレイピングツールです。

 

1.「+」記号をクリックして、カスタマイズモードで新しいタスクを作成します。

2. URLをボックスに入力します。

https://www.google.com/maps/place/%E6%9D%B1%E4%BA%AC%E3%82%BF%E3%83%AF%E3%83%BC/@35.6585848,139.7432442,17z/data=!3m1!4b1!4m5!3m4!1s0x60188bbd9009ec09:0x481a93f0d2a409dd!8m2!3d35.6585805!4d139.7454329?hl=ja

3.「URLを保存する」を押して続行します。

 

これで、新しいタスクが正常に作成されました。問題は、Googleマップが組み込みブラウザ内で読み込まれないことです。これはなぜでしょうか?これは、組み込みブラウザはGoogleマップと交換性がよくないためです。この問題を解決するには、ブラウザを変更する必要があります。Firefox 45.0に変更すれば、正常に読み込みます。

Webページの読み込みが完了したら、組み込みのブラウザーでデータをクリックすると、「操作ヒント」パネルに選択可能なオプションが表示されます。「選択した要素のテキストを抽出する」を選択します。

テキストを抽出する

 

これで、抽出操作が正常に作成され、以下のワークフローに追加されたことに気付くはずです。右上の設定画面からフィールド名を編集できます。

設定画面に移動し、下部にある「定義済みフィールドを追加する」を見つけます。クリックしてドロップダウンメニューを表示し、「現在ページの情報を追加する」を選択して、「ページURL」を選択します。

page-url

 

今、WebページのURLが正常にデータフィールドに追加されました。これから、URLフィールドを編集して余分な部分を取り除き、正確な座標を取得する必要があります。

page-data

下部の「カスタマイズ」アイコン(小さな鉛筆)をクリックし、「抽出データを再フォーマットする」を選択します。次に、「ステップを追加する」ボタンをクリックし、これにより、データ処理を行う機能リストが表示されます。この場合、「正規表現でマッチする」を選択し、下図の画面になります。

regex-tool

 

 

これで、正規表現を記述することにより、希望どおりにデータを編集することができます。正規表現とは、文字列内で文字の組み合わせを照合するために用いられるパターンです。ほとんどの人が式を書くのが難しいことを考えると、使いやすいRegExツールを組み込みました。「RegExツールを試す」ボタンをクリックします。

 

座標は「@」記号の後、2番目のコンマの前にあることを分かります。「で始める」にチェックを入れ、「@」を入力します。これは、「@」の後の部分が必要であることをRegExに伝えています。同じように、「で終わる」にチェックを入れ、「,17z」を入力します。「@」の後ろにコンマが2つあるため、どのコンマを使用するかを定義するほうが適切です。コンマの後ろに数字などを追加することで区別します。この場合、「17z」を追加します。これにより、RegExにコンマと「17z」の前の部分が必要であることがわかります。「生成する」ボタンをクリックすると、正規表現がボックスに表示されます。

match-data

マッチする」ボタンをクリックして、正しく設定されているかどうかを確認します。右側にマッチした結果が出てきます。次に、「適用する」をクリックしてから「OK」をクリックして確認します。

これで終わりました。さて、タスクを実行し、それが動作するかどうかを見てみましょう。「抽出開始」をクリックし、「ローカル抽出」を選択します。

data-output

 

できました!もし、1000個の場所を調べる場合は?Octoparseでは、タスクを設定するときに10,000以上のURLを入力できます。すごく簡単でしょう!皆さんもお試しください!

もし興味があれば、以下の動画もご覧ください。

 

 

 

Amazonから製品データ取得する3つの方法を公開!

f:id:octoparse:20191111181212j:plain

 

Photoed by Christian Wiediger on Unsplash

元記事:https://www.octoparse.jp/blog/scrape-product-data-from-amazon/

 

「なぜAmazonデータを取得する必要があるのですか?」と疑問に思うかもしれません。 アメリカ最大の電子商取引会社であるアマゾンは、販売している製品が世界で多種多様に及んでいます。それらの製品データを色々な場面に活用できます。製品データをうまく活用すれば、ビジネスにもたらす以下の利点があります。

  • 競合他社の競合製品を比較して監視する。
  • 売上ランキングの製品リストを知り、流行に敏感になる。
  • 製品検索情報を使って、AmazonSEOやマーケティングに活用する。
  • レビュー管理によって製品の最適化に活用する。

......

次の質問は、Amazonから製品データを取得する方法は何でしょう。

以下の3つの方法があります。

1. プログラミング

2. Webスクレイピング拡張機能

3. Webスクレイピングツール

 

1. プログラミング

プログラマーの場合は、スクリプトを書いて、Amazon.comからデータを取得したいと思うでしょう。APIに接続してデータを簡単にダウンロードするためにプログラミングするだけですべのデータを手に入れます。

Amazon Product Advertising APIはその1つです。アプリケーションプログラマーAmazonの製品カタログデータにアクセスできるようにするWebサービスおよびアプリケーションプログラミングインターフェイス (API)。WikipediaAmazonによって公式に提供されており、無料で使用できます。このAPIは、ユーザーがAmazonの洗練されたeコマースデータと機能を利用できるように、詳細な製品情報、レビュー、画像を取得するためのAmazonデータベースへの扉を開きます。

しかし、ほとんどのAPIと同じ、APIは製品ページですべての情報を提供するわけではありません。これらのデータを取得したり、価格監視などの他のニーズを実現したりするために、Pythonまたは他の言語を使用して独自のカスタマイズされたWebクローラーをプログラムできます。

Webクローラーの構築には、専門的なコーディングの知識が必要ですし、時間もかかります。時間を節約したい専門者でない人にとって拡張機能とWebスクレイピングツールの方が使いやすいです。

 

2. Webスクレイピング拡張機能

Webページからデータを取得するのに役立つChrome拡張機能があります。拡張機能は使いやすく、ブラウザ内でも活用できます。ブラウザーChrome拡張機能を使用するだけで、特別なソフトウェアやプログラミングのスキルは必要ありません。

Web Scraperは、動的なWebページからデータを抽出するための最も人気拡張機能です。 Webサイトでどのデータを抽出するかを示すサイトマップのルールを作成できます。これらのサイトマップを使用すると、Web Scraperは必要に応じてサイトをナビゲートし、後でCSVとしてエクスポートできるデータを抽出します。

f:id:octoparse:20191111181252p:plain

一部の拡張機能は、Amazonデータを取得するために特別に設計されています。たとえば、 KeepaAmazonの価格の追跡と比較に使用される拡張機能です。価格履歴をチャートで表示し、製品が希望の価格を下回ったときに通知することができます。

f:id:octoparse:20191111181334j:plain

 

3. Webスクレイピングツール

大量のデータが必要な場合、またはデータフィールドが深く隠されている場合、拡張機能はうまく対応できません。このような場合、Webスクレイピングツールは一番いい選択肢です。

 

Webスクレイピングツールはとても簡単に使用できます。ログイン後のスクレイピング無限スクロールなどの複雑なサイトにも対処できるので、非常に魅力です。

 

その中で、Octoparseは高速で拡張性のあるWebスクレイピングツールです。ポイント&クリックのインターフェースにより、誰でも簡単に独自のクローラーを作成できます。すぐに使用できる大量のスクレイピングテンプレートにより、いくつかのパラメーターを入力するだけでデータをスクレイピングすることもできます。Octoparseクラウドサービスで365日24時間抽出、さらにスクレイピング速度を上げることができます。 Amazonの製品情報をスクレイピングするから、具体的なスクレイピング方法を知ることができます。

 

Webクローラーツール20選 の記事には、他の多くのWebスクレイピングツールがリストされています。必要に応じて読んでみてください。

 

Amazon製品データのスクレイピングは、コーディングスキル、データフィールドや予算に基づいてWebサイトから製品データを取得するために上記の選択肢を選んでくださいね。非常に多くのスクレイピングツールを使って、データ取得の面白さを体験しましょう!

 

2019年に遭遇可能5つのスクレイピング防止技術

f:id:octoparse:20191025163824j:plain




Photoed by Ian Schneider on Unsplash

 

ビッグデータの台頭により、データ分析にWebクローラーを使ってインターネットからデータを取得し始めるようになりました。クローラーを作成するにはさまざまな方法があります。ブラウザー拡張機能Beautiful SoupまたはScrapyを使用したPythonコーディング、またはスクレイピングツール、例えばOctoparseなどでデータを抽出しています。

ただし、スパイダーとアンチボットの間には常にコーディング戦争があります。Web開発者は、さまざまな種類のスクレイピング防止手法を適用して、Webサイトがスクレイピングされないようにしています。この記事では、5つの最も一般的なスクレイピング防止手法と、それらを回避する方法を紹介しましす。

 

 

1.IP

WebサイトがWebスクレイピングを検出する最も簡単な方法の1つは、IPトラッキングを使用することです。 Webサイトは、その動作に基づいてIPがロボットであるかどうかを識別できます。Webサイトが、1つのIPアドレスから定期的または短期間内に膨大な数のリクエストが送信されたことを発見した場合、IPがボットであると疑われるため、ブロックされる可能性が高くなります。この場合、スクレイピング対策クローラーを構築するために本当に重要なのは、単位時間あたりの訪問の数と頻度です。発生する可能性のあるいくつかのシナリオを以下に示します。

シナリオ1:数秒以内に複数の訪問を行う。人間がこれほど速くブラウジングできる方法はありません。そのため、クローラーが頻繁にリクエストをWebサイトに送信すると、WebサイトはIPをブロックして、それをロボットとして識別します。

解決策:スクレイピング速度を遅くします。実行する前に遅延時間(たとえば、「スリープ」機能)を設定するか、2つのステップ間の待機時間を増やすことで解決できます。

シナリオ2:まったく同じペースでWebサイトにアクセスします。人間は同じ行動パターンを何度も繰り返すことはありません。一部のWebサイトはリクエストの頻度を監視し、1秒に1回など、まったく同じパターンでリクエストが定期的に送信される場合、スクレイピング防止メカニズムが有効になる可能性が非常に高くなります。

解決策:すべてのステップにランダムな遅延時間を設定します。ランダムなスクレイピング速度では、クローラーは、人間がWebサイトを閲覧する方法のように動作します。

シナリオ3:高度なスクレイピング防止手法の中には、さまざまなIPからのリクエストを追跡し、それらの平均リクエストを分析するための複雑なアルゴリズムを組み込むものがあります。毎日同じ時間に同じ量の要求を送信したり、同じWebサイトにアクセスしたりするなど、IPの要求が異常な場合、ブロックされます。

解決策:IPを定期的に変更してください。ほとんどのVPNサービス、クラウドサーバー、およびプロキシサービスは、IPローテーションを提供できます。これらのローテーションIPを介してリクエストが送信されている場合、クローラーはボットのように振る舞わないため、ブロックされるリスクを減らすことができます。

 

2.Captcha

Webサイトでこの種の画像を見たことはありますか?

1.クリックが必要あり

f:id:octoparse:20191025163849p:plain

2.特定の写真を選択する必要あり

f:id:octoparse:20191025163828j:plain

3.正しい文字列を入力/選択する必要あり

f:id:octoparse:20191025163851j:plain

これらはキャプチャーと呼ばれます。Captcaは、「completely automated public Turing test to tell computers and humans apart」(コンピュータと人間を区別する完全に自動化された公開チューリングテスト)のバクロニムです。このプログラムは、劣化した画像、空欄、または方程式さえも含む、人間だけが解決するさまざまな課題を提供します。

現在多くのWebサイトがCaptchaスクレイピング防止手法として適用しています。Captchaを直接渡すことはかつて非常に困難でした。しかし、最近では、多くのオープンソースツールを適用してCaptchaの問題を解決できるようになりましたが、より高度なプログラミングスキルが必要になる場合があります。一部の人々は、独自の機能ライブラリを構築し、機械学習またはディープラーニングスキルを使用してこのチェックに合格する画像認識技術を作成します。

 

解決するよりもトリガーしないほうが簡単

ほとんどの人にとって、最も簡単な方法は、Captchaテストをトリガーしないように、抽出プロセスを遅くするか、ランダム化することです。遅延時間を調整するか、ローテーションIPを使用すると、テストをトリガーする確率を効果的に減らすことができます。

 

3.ログイン

多くのWebサイト、特にTwitterFacebookなどのソーシャルメディアプラットフォームは、ログインした後にのみ情報を表示します。これらのようなサイトをクロールするには、クローラーはログ記録手順もシミュレートする必要があります。

Webサイトにログインした後、クローラーCookieを保存する必要があります。Cookieは、ユーザーの閲覧データを保存する小さなデータです。Cookieがないと、Webサイトはすでにログインしていることを忘れて、再度ログインするように要求します。

さらに、厳密なスクレイピングカニズムを備えた一部のWebサイトでは、ログイン後も毎日1000行のデータなど、データへの部分的なアクセスのみが許可される場合があります。

 

ボットはログイン方法を知る必要がある

1) キーボードとマウスの操作をシミュレートします。クローラーはログインプロセスをシミュレートする必要があります。これには、マウスでテキストボックスと「ログイン」ボタンをクリックするか、キーボードでアカウントとパスワード情報を入力するなどの手順が含まれます。

2) 最初にログインしてから、Cookieを保存します。 Cookieを許可するWebサイトの場合、Cookieを保存してユーザーを記憶します。これらのCookieを使用すると、短期的にWebサイトに再度ログインする必要はありません。このメカニズムのおかげで、クローラーは面倒なログイン手順を回避し、必要な情報を盗むことができます。

3)残念ながら、上記の厳格なスケーピングメカニズムに遭遇した場合、1日1回などの固定頻度でWebサイトを監視するようにクローラーをスケジュールできます。期間内に最新の1000行のデータを取得し、最新のデータを蓄積するようにクローラーをスケジュールします。

 

4.UA

UAはUser-Agentの略で、ユーザーがどのようにアクセスしたかを識別するためのWebサイトのヘッダーです。オペレーティングシステムとそのバージョン、CPUタイプ、ブラウザ、およびそのバージョン、ブラウザ言語、ブラウザプラグインなどの情報が含まれています。

例: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11

Webサイトをスクレイピングするときに、クローラーにヘッダーが含まれていない場合、クローラーは自分自身をスクリプトとして識別するだけです(たとえば、クローラーをビルドするためにpythonを使用している場合、クローラーpythonスクリプトとして表示されます)。Webサイトは、スクリプトからの要求を確実にブロックします。この場合、クローラーUAヘッダーを備えたブラウザーのふりをして、Webサイトがアクセスできるようにする必要があります。

同じURLでサイトを入力しても、Webサイトは異なるブラウザまたは異なるバージョンに対して異なるページまたは情報を表示することがあります。チャンスとは、あるブラウザと互換性があり、他のブラウザはブロックされる情報です。したがって、正しいページにアクセスできるようにするには、複数のブラウザーとバージョンが必要になります。

 

ブロックされないように、UAを切り替える

正しい情報が見つかるまで、UA情報を変更します。複雑なスクレイピング防止手法を適用する一部のデリケートなWebサイトでは、同じUAを長時間使用するとアクセスがブロックされる場合があります。この場合、UA情報を定期的に変更する必要があります。

 

5.AJAX

最近では、従来のWeb開発手法ではなく、AJAXを使用してより多くのWebサイトが開発されています。 AJAXは、非同期JavaScriptXMLの略で、Webサイトを非同期に更新する手法です。簡単に言えば、ページ内でわずかな変更のみが行われた場合、Webサイト全体をリロードする必要はありません。

それでは、WebサイトがAJAXを適用しているかどうかをどのようにして知ることができますか?

AJAXを使用しないWebサイト:Webサイトでわずかな変更を加えただけでも、ページ全体が更新されます。通常、読み込み中のサインが表示され、URLが変更されます。これらのWebサイトでは、このメカニズムを利用して、URLがどのように変化するかのパターンを見つけることができます。次に、クローラーに人間のようなWebサイトをナビゲートする方法を教える代わりに、URLをバッチで生成し、これらのURLから直接情報を抽出できます。

AJAXを使用したWebサイト:クリックした場所のみが変更され、読み込み中のサインは表示されません。通常、Web URLは変更されないため、クローラーはそれを簡単な方法で処理する必要があります。

AJAXによって開発された一部の複雑なWebサイトでは、それらのWebサイトで暗号化された方法を見つけ、暗号化されたデータを抽出するために特別な技術が必要になります。暗号化された方法はページによって異なるため、この問題の解決には時間がかかる場合があります。組み込みのJS操作を備えたブラウザーを見つけることができれば、Webサイトを自動的に復号化し、データを抽出できます。  

 

Webスクレイピングおよびアンチスクレイピングの手法は日々進歩しています。この記事を読んでいるとき、おそらくこれらの手法は時代遅れになるでしょう。ただし、Octoparseからいつでもサポートを受けることができます。Octoparseは、誰でも、特に技術的背景のない人でもデータを取得できるようになるために存在します。 Webスクレイピングツールとして、これらの5つのスクレイピング防止手法すべてにすぐに展開できるソリューションを提供できます。ビジネスやプロジェクトに強力なWebスクレイピングツールが必要な場合は、お気軽にお問い合わせください!

 

 

 

 

PythonによるWebスクレイピングを解説

価格監視、ビジネス分析などのデータ関連プロジェクトを実施する場合、常にWebサイトからデータをエクセルに記録する必要があります。ただし、データを1行ずつコピペするのは時代遅れになり、Webスクレイピングにおけるニーズが高まっています。この記事では、Webデータを自動収集する方法、つまりPythonでWebスクレイピングを行う方法を説明します。

 

ステップ0:はじめに

Webスクレイピングとは、Webサイトからデータを取得するのに役立つ技術です。Pythonなどのプログラミング言語以外に、APIまたはOctoparseのようなスクレイピングツールもWebスクレイピングを行うことができます。

AirbnbTwitterなどの大規模サイトの場合、サイトにある情報をできるだけ広く共有するために、API を通してデータにプログラムレベルでアクセスし、企業、開発者、利用者に提供します。APIはApplication Programming Interfacesの略で、2つのアプリケーションが互いに通信できるソフトウェアビルディングブロックです。ほとんどの人にとって、APIはデータを取得するための最も適したアプローチです。

ただし、全てのサイトはAPIサービスを提供するわけではありません。APIを提供しても、取得できるデータが必要なものではない場合もあります。したがって、Pythonを活用してWebクローラーを自作することは、強力で柔軟なソリューションになります。

では、なぜPythonが選ばれた言語なのでしょうか?

  • 柔軟性:私たちが知っているように、Webサイトはよく更新されます。コンテンツだけでなく、Web構造も頻繁に変更されます。Pythonは動的に入力可能で生産性が高いため、使いやすい言語です。したがって、はコードを簡単に変更し、Webサイトの更新速度に追いつくことができます。
  • 強力:Pythonには、有用で成熟したライブラリがたくさんあります。例えば、Requests、BeautifulSoupは、URLを取得し、Webページから情報を引き出すのに役立ちます。Seleniumは、Webクローラーが人間のブラウジング動作を真似できるようにすることで、一部のスクレイピング防止手法を回避するのに役立ちます。さらに、re、numpy、およびpandasを使用して、データのクリーンアップと処理を行うことができます。

 

それでは、PythonによるWebスクレイピングの旅を始めましょう!

 

ステップ1:Pythonライブラリをインポートする

このチュートリアルでは、Yelpからレビューをスクレイピングする方法を示します。BeautifulSoupとRequestsの2つのライブラリを使用します。これらの2つのライブラリは、PythonでWebクローラーを構築する際に一般的に使用されます。最初のステップは、この2つのライブラリをPythonにインポートして、これらのライブラリの関数を使用できるようにすることです。

 ライブラリをインポートする

 

ステップ2:WebページからHTMLを抽出する

https://www.yelp.com/biz/milk-and-cream-cereal-bar-new-york?osq=Ice+Cream」からレビューを抽出しようとします。まず、URLという変数にURLを保存します。次に、このWebページのコンテンツにアクセスし、Requestsでurlopen()関数を使用して、HTMLを「ourUrl」に保存できます。

 htmlを抽出する

それで、BeautifulSoupを使ってWebページを解析します。

webページを解析

このWebサイトの生のHTMLである「Soup」ができたので、prettify()と呼ばれる関数を使用して生データを消去し、それを印刷して「Soup」のHTMLのネスト構造を確認できます。

 HTMLのネスト構造を確認

 

ステップ3:レビューを見つけて抽出する

次に、このWebページでレビューのHTMLを見つけて抽出し、保存します。Webページの各要素には、唯一のHTML「ID」があります。IDを確認するには、Webページでそれらを検査する必要があります。

 要素の検証

「Inspect element(要素の検証)](「Inspect(検証))をクリックすると、レビューのHTMLが表示されます。

 htmlが表示されます

この場合、レビューは「p」というタグの下にあります。そのため、まずfind_all()という関数を使って、これらのレビューの親ノードを見つけます。そして、ループ内の親ノードの下にタグ「p」を持つすべての要素を見つけます。すべての「p」要素を見つけたら、それらを「review」という空のリストに保存します。

 レビュー

 

これで、そのページからすべてのレビューを取得できます。いくつのレビューを抽出したか見てみましょう。

 レビュー数

 

ステップ4:レビューを処理する

各レビューの最初に「<p lang = 'en'>」、レビューの途中に「<br/>」、およびレビューの終わりに「</ p>」などの役に立たないテキストがまだあることに注意する必要があります。

「<br/>」は改行を表します。レビューに改行を入れる必要はありませんので、削除する必要があります。また、「<p lang = ’en’>」と「</ p>」はHTMLの始まりと終わりであり、これらも削除する必要があります。

 レビューを処理する

最後に、20行未満のコードですべてレビューをきれいに取得しました。

以上はYelpから20件のレビューを収集するデモです。しかし、実際には、他の多くの状況に直面する必要があるかもしれません。例えば、他のページに移動してこのショップの残りのレビューを抽出するには、ページネーションなどの手順が必要になります。または、レビュアー名、レビュアーの場所、レビュー時間などのその他の情報も収集する必要があります。

上記の操作を実装してより多くのデータを取得するには、Selenium正規表現などの関数とライブラリをさらに学習しなければなりません。Webスクレイピングの課題を掘り下げるのにより多くの時間を費やすことは興味深いでしょう。

ただし、Webスクレイピングを行う簡単な方法を探している場合は、Octoparseのようなスクレイピングツールが一番いいソリューションになるかもしれません。Octoparseは、コードを各必要なく、Webサイトから情報を簡単に取得できる強力なWebスクレイピングツールです。Webスクレイピングをマスターして、Webデータの取得を自動化にしましょう!

 

元記事:https://www.octoparse.jp/blog/web-scraping-using-python/

データサイエンティストになるにはオススメの認定資格9選徹底紹介!

 

ビッグデータ」時代において「データサイエンティスト」という職業はすでに、業界で最も注目となっている職業の1つであると言えるのでしょう。その年収は経験やスキルによってばらつきはありますが、約350万円から1000万円くらいまでだと言われています。ビッグデータをビジネスに活用したいと考えている企業は増えています。しかし、IT人材の中で特にデータサイエンティストは供給不足の状態にあります。

この背景において、ますます多くの人々がデータサイエンティストの仲間入りを求めています。それでは、データサイエンティストは一体どんな仕事をしているのか、そしてそうなるには取得しておくべき資格9選、最後データサイエンティストになるため無料学習サービス5選について紹介します。

 

1. データサイエンティストとは

 

f:id:octoparse:20190924164017j:plain

データサイエンティストは、いわゆる「データ分析」、データの収集、照合、分析、および業界調査、データに基づく評価と予測を専門とするさまざまな業界の専門家を指します。

ビッグデータ時代において、企業が保有するデータは多岐にわたります。売り上げデータや顧客情報に関する情報など、さまざまな種類・形式のデータがあり、その量も年々増え続けています。他社との競争においてデータの重要性が見直されてきました。現在、世界500社の90%以上がデータ分析部門を設置しています。 IBMMicrosoftGoogleなどの有名な企業は、データサービスへの積極的な投資、データ部門の構築、データ分析チームの育成を行っています。政府や多くの企業は、データと情報が企業の知的資産と資源になり、データを分析および処理する能力がますます技術的な手段になっていることを認識しています。

 

2.データサイエンティストの仕事内容

 

データサイエンティストの仕事内容は簡単に言えば、「第一はデータを収集すること。第二は「データを分析すること」です。例えば、企業の売上データや顧客データなどさまざなデータからしかわからないことを分析して企業の事業戦略を作成しています。だが、そのデータの量があまりにも膨大なので、データサイエンティストはその膨大なデータを統計学やIT關係の知識で整理して営業状況や顧客画像などを分析することが仕事です。

 

3. データサイエンティストになるには取得しておくべき資格

 

   3.1 G検定(ジェネラリスト検定)・E資格(エンジニア検定)

 

ほとんどのデータサイエンティストが持っている資格だと言われています。この2つの資格は有名なディープラーニング協会によっ2017年に設立されたものです。ディープラーニング協会はディープラーニングを事業の核とする企業が中心となり、ディープラーニング技術を日本の産業競争力を向上させるのを目的としています。

G検定とE資格はそれぞれ以下のような人材を検定しています。その違いは簡単に言えば、G検定はコンサルや上流エンジニア向け、主に基礎的な知識や事業に活かすための知識があるかどうかを図る目的で、一方E資格は完全にテクニカルなエンジニアや研究職向け、ディープラーニングを実装するエンジニアの技能を認定する目的だという印象があります。

f:id:octoparse:20190924164039p:plain

試験名 :G検定

試験時期:年3回、3・7・11月

受験資格:制限なし

受験料(税抜き):一般 12,000円/学生 5,000円

合格率(参考):57%

公式サイト:https://www.jdla.org/business/certificate/

 

試験名   :E資格 (E"検定"は電気・電子系技術検定試験)

試験時期:年2回、2・8月

受験資格:JDLA認定プログラムを試験日の過去2年以内に修了していること

受験料(税抜き):一般 30,000円/学生 20,000円/JDLA正会員・賛助会員 25,000円

合格率(参考):69%

公式サイト:https://www.jdla.org/business/certificate/

 

   3.2 OSS-DB技術者認定試験(オープンソースデータベース技術者認定試験)

 

特定非営利活動法人エルピーアイジャパン(LPI-Japan)が、オープンソースデータベース(OSS-DB)に関する技術力と知識を、公平かつ厳正に、中立的な立場で認定するIT技術者認定資格です。「Silver」(シルバー)と「Gold」(ゴールド)の二つのレベルがあります。

「Silver」と「Gold」はそれぞれ以下の人材を検定しています。

 

f:id:octoparse:20190924164123p:plain

試験名 :OSS-DB Silver

試験時期:随時

受験資格:制限なし

受験料(税抜き):15,000円

合格率(参考):70%

公式サイト:https://oss-db.jp/outline/silver

 

試験名 :OSS-DB Gold

試験時期:随時

受験資格:Silver資格取得必要

受験料(税抜き):15,000円

合格率(参考):60%

公式サイト:https://oss-db.jp/outline/gold

 

 

データサイエンスだけでなく、ITに関係するすべての人に活用いただける試験として実施しています。「情報処理の促進に関する法律」に基づき経済産業省が、情報処理技術者としての「知識・技能」が一定以上の水準であることを認定している国家試験です。情報システムを構築・運用する「技術者」から情報システムを利用する「エンドユーザ(利用者)」まで、特定の製品やソフトウェアに関する試験ではなく、情報技術の背景として知るべき原理や基礎となる知識・技能について、幅広く総合的に評価しています。

f:id:octoparse:20190924164136p:plain

試験名 :基本情報処理技術者試験

試験時期:年2回、4・10月

受験資格:制限なし

受験料(税抜き):5,700円

合格率(参考):20%

公式サイト:https://www.jitec.ipa.go.jp/

 

試験名 :応用情報技術者試験

試験時期:年2回、4・10月

受験資格:制限なし

受験料(税抜き):5,700円

合格率(参考):20%

公式サイト:https://www.jitec.ipa.go.jp/

 

   3.4 Python3 エンジニア認定データ分析試験

 

データサイエンティストになるには最も有利な資格は「Python」でしょう。 Pythonエンジニア育成推進協会は、Python次期試験「Python3エンジニア認定データ分析ベータ試験」を、2019年8月27日~9月30日までの期間、全国のオデッセイコミュニケーションズCBTテストセンターで実施します。この試験は、Pythonを使ったデータ分析の基礎や方法を問う試験です。

 

f:id:octoparse:20190924164152p:plain

試験名 :Python 3 エンジニア認定データ分析試験

試験時期:2019/8/27~9/30(初回)

受験資格:制限なし

受験料(税抜き):一般人1万円/学割5千円

合格率(参考):20%

公式サイト:https://www.pythonic-exam.com/

 

   3.5 画像処理エンジニア検定 エキスパート

 

データサイエンティストは、文字の他にも画像や音声などのデータを取り扱います。そのため、データサイエンティストには画像処理に関する知識やスキルが必要です。この試験は画像処理の技術に関する専門的な理解と、ソフトウェアやハードウェア、システムの開発に知識を応用する能力が図られので、難易度がかなり高いと言われています。

 

f:id:octoparse:20190924164205p:plain

試験名 :画像処理エンジニア検定 エキスパート

試験時期:年2回、7・11月

受験資格:制限なし

受験料(税抜き):6,600円

合格率(参考):45.4%

公式サイト:https://www.cgarts.or.jp/kentei/about/img_engineer/index.html

 

   3.6 統計検定

 

データを分析する上では、統計学の存在は避けられないでしょう。「統計検定」とは、統計に関する知識や活用力を評価する全国統一試験です。
データに基づいて客観的に判断し、科学的に問題を解決する能力は、仕事や研究をするための21世紀型スキルとして国際社会で広く認められています。レベルは、「4級〜1級」まで5つの段階がありますので、それぞれの料金も異なります。

 

f:id:octoparse:20190924164218p:plain

試験名 :統計検定

試験時期:年2回、6・11月(1級は11月のみ、準1級は6月のみ、ほかは2回受験できる)

受験資格:制限なし

受験料(税込み):3,000〜10,000円

合格率(参考):20%〜64.6%

公式サイト:http://www.toukei-kentei.jp/

 

 

ORACLE MASTERとは、世界的にも知られている大企業オラクルが公式に運営する「Oracle Database」シリーズを扱う技術力を認定する資格です。試験ではデータベースの管理/運用のほか、SQLの習熟度を問う問題が出題されます。SEやプログラマーの間でも人気のベンダー資格なので、取得を目指す方も多い資格です。レベルはBronze、Silver、Gold、Platinumの4つに分かれています。

 

 

f:id:octoparse:20190924164345p:plain 

試験名 :オラクルマスター

試験時期:平日/土日祝日(不定休)

受験資格:Bronzeだけ制限なし、ほかは前のレベル取得必要

受験料(税抜き):Bronze :40,200円

         Silver :26,600 円

              Gold :26,600 円

         Platinum :238,000円

合格率(参考):20%〜64.6%

公式サイト:https://www.oracle.com/jp/education/index-172250-ja.html
 

   3.8 ITパスポート

 

ITパスポートは、ビジネスに欠かせない必須のツールとなっているIT・情報技術に関する基礎的知識を証明する資格です。情報技術に関する基礎的な知識のほか、経営・財務の基本など、それぞれの分野における基礎的な用語・概念の理解を総合的に証明でき、より上位の情報処理技術者試験への足がかりとしても人気の国家資格です。

 

f:id:octoparse:20190924164409p:plain

 

試験名 :ITパスポート

試験時期:随時

受験資格:制限なし

受験料(税抜き):5,700円

合格率(参考):50%

公式サイト:https://www3.jitec.ipa.go.jp/JitesCbt/index.html
 

   3.9 統計士・データ解析士

 

統計士・データ解析士は、実務教育研究所の通信講座を修了することで認定される統計資格です。統計士は「現代統計実務講座」、データ解析士は「多変量解析実務講座」に対応し、資格認定のほか、文部科学大臣賞や実務教育研究所賞など、表彰制度も充実しています。統計関連の通信教育としては日本で唯一の文部科学省認定講座で、仕事で忙しい方も無理なく学習できる点が人気です。

 

f:id:octoparse:20190924164426j:plain

試験名 :統計士・データ解析士

試験時期:随時

受験資格:一般財団実務教育研究所の「現代統計実務講座」を受講する必要

受験料(税込み):講座:約5万円/試験:5千円

合格率(参考):50%

公式サイト:http://www.jitsumu.or.jp/courselist/analyze/analyze-ertified#prize

 

4. データサイエンティストになりたいオススメの無料サービス

 

 

総務省が開催しているもので、「gacco」というプラットフォームにて無料で受講できます。
 

f:id:octoparse:20190924164444p:plain

   4.2 Aidemy

 

Aidemy は、AI エンジニアになるためのオンライン学習サービスです。Python入門から、ディープラーニング自然言語処理など、有名な人工知能技術を実際にコードを書きながら習得できます。無料範囲はPython入門、機械学習入門、ディープラーニング基礎です。

 

f:id:octoparse:20190924164459j:plain

 

 

初心者〜中級者向けのプログラミング学習サービス「paiza(パイザ)ラーニング」。 面倒な環境構築が不要で、PCとインターネット環境さえあればすぐに学習が始められます。 JavaPythonRubyPHP、Cなどのプログラミング言語を、わかりやすい3分動画と豊富な演習問題で基礎からしっかり学べます。初心者にとってとても優しいです。無料範囲はPython3入門編、C#入門編、C言語入門編です。

 

f:id:octoparse:20190924164536p:plain

 

 

チュートリアルは、初学者が始めやすく挫折しにくいよう工夫されています。ディープラーニングフレームワークの活用に必要な数学やプログラミングを基礎から機械学習の理論、ディープラーニングを基本から実践まで紹介するすべて無料です。初心者の方には段階的に理解していくことができます。

 

f:id:octoparse:20190924164555p:plain

 

   4.5 Octoparse

 

Octoparseはデータ取得に役立つ無料スクレイピングツールです。無料版だけでもデータを簡単に取得することができます。大切なデータ分析に時間がかかりますので、できるだけデータ取得の作業を簡単に済みたい方にオススメです。

 

f:id:octoparse:20190924164634j:plain

 
5. まとめ

 

この記事はデータサイエンティストになるには取得しておくべき資格9選と無料学習講座5選について紹介しました。データサイエンティストになりたいと思う方はぜひ本記事をご参考いただければ幸いです。

しかし、資格を取っただけではあくまでも本から学んだ知識なので、人それぞれなのでそれほど実践に活かせるかどうかがわからないです。やはり、資格をとってから実践に生かして経験を積んでいくことが大切です。

 

参考記事:

https://www.torikun.com/entry/datascientist-qualification/#i-8

https://career-picks.com/license/datascientist-shikaku/

 

2019年に知っておくべきオープンデータソース70選

ほとんどの人は、ビッグデータの収集は大変な仕事だと考えていますが、そうでもないと思います。実際にはオープンデータソースがたくさんあり、誰でも利用できます。ここでは、政府機関、医療・健康、 金融・経済、ビジネス・企業、ジャーナリズム・メディア、不動産・観光、文化・教育などに関するオープンデータソースを70選まとめました。

 

 

一、政府機関

1.日本総務省統計局: 日本総務省統計局、統計研究研修所の共同運営によるサイトです。国勢の基本に関する統計の企画・作成・提供、国及び地方公共団体の統計職員に専門的な研修を行っています。

2.DATA.GO.JP: これは日本各府省の保有データをオープンデータとして利用できる場をつくり、データの提供側・利用側双方にオープンデータのイメージを分かりやすく示すことを目的としたポータルサイトです。

3.Data.gov: 2009年5月に設立された、アメリカ政府機関データ公開ポータルサイトです。

4.Data.gov.uk: 2009年9月に設立された、イギリス政府のオープンデータポータルサイトです。

5.米国国勢調査局: このサイトは、人口、経済、教育、地理などを含む米国市民の生活に関する政府の統計情報です。

6.The CIA World Factbook: CIAが世界各国の地図とともに毎年公開している、国別政情情報です。

7.Socrata: データポータルやデータカタログのクラウドシステムを提供しています。

8.European Union Open Data Portal: 欧州委員会出版局(Publications Office of the European Union)によって管理運営されているデータベースで、ユーロスタット・地域委員会・欧州委員会競争総局など欧州連合及び欧州委員会の各機関によるパブリックデータを収録しています。

9.Datacatalogs.org: 各国で公開されているオープンガバメントデータに関する情報を登録・検索できます。200以上の地方、地域、国内のオープンデータのカタログが、世界中からの広範囲なデータリストになることを目指しています。

10.アメリカ国立教育統計センター(NCES):2010年秋に、全米の大学等3,689機関の図書館を対象として行った調査の結果をまとめたもので、サービス、スタッフ、コレクション、電子的なサービス、情報リテラシー、予算等に関するデータが含まれています。

11.UK Data Service: 国勢調査をはじめとする経済学・社会科学分野におけるデータを登載し、学術界・産業界・政府機関等における研究者をサポートすることを目的としています。

12.統一犯罪白書(UCR): 米国連邦捜査局(FBI)が毎年発表する米国内での犯罪に関する報告書です。

 

 

 

二、医療・健康

1.日本保健衛生(厚生労働統計一覧): 日本国内の医療施設や労働者、健康の保持などに関するデータを提供しています。

2.介護事業所・生活関連情報検索: 日本全国の介護保険サービス事業所の情報を提供しています。 

3.アメリカ食品医薬品局(FDA): 食品や医薬品、さらに化粧品、医療機器、動物薬、たばこ、玩具など、消費者が通常の生活を行うに当たって接する機会のある商品についてのデータを更新しています。

4.ユニセフ: ユニセフは、世界中の子供の状況に関する情報を収集しています。

5.世界保健機関(WHO): 世界各国の政府と保健医療政策行政機関から報告を受け、世界各国、大陸地域別、世界全体の統計データベースを公開しています。

6.Healthdata.gov: 医療データの公開サイトで、公開されているデータは、公共機関から提供されるデータだけでなく、民間の医療機関から提供されるデータなど、200以上のデータセットが公開されています。

7.国民保健サービス(NHS): イギリス国民医療サービスの健康データセットです。

 

 

三、金融・経済

1.世界銀行: 世界銀行はデータ公開イニシアティブにより、約8000の開発指標を無料公開しています。

2.国際通貨基金(IMF): オンラインの経済データを無料で一般に公開していて、ユーザーは、大部分のIMF加盟国の全経済セクターを網羅した豊富なマクロ経済データにアクセスすることができます。

3.UN Comtrade Database: これは国連加盟約200の国や地域の統計機関によって報告された、詳細な輸出入統計のデータベースです。1962年から最新年までの、10億以上のレコードを含む最も包括的な貿易のデータベースが使用可能です。

4.Global Financial Data: 300年をカバーする60,000社を超える企業のデータにより、グローバル経済の紆余曲折を分析するためのユニークなソースを提供します。

5.Google Finance: 株価やチャート、金融ニュース、為替レートなどの投資関連情報をリアルタイムで入手できます。

6.Google Public Data Explorer: 大量の公共データから必要なデータを簡単に探してグラフ化できるツールです。

7.アメリカ合衆国経済分析局(BEA): アメリカ合衆国の経済についてのいくつかの重要な統計を提供し、最も注目される統計は、アメリカの国内総生産で(GDP)に関するレポートです。

8.Financial Data Finder(オハイオ州立大学)金融データに関する膨大なリンク集を提供しています。

9.全米経済研究所(NBER ): 1973年6月以降のアメリカの景気動向や世界的な金融・経済動向などの調査報告書が収録されています。

10.米国証券取引委員会(SEC): 委員会に提出された企業財務報告書から抽出された情報のデータセットです。

11.Visualizing Economics: アメリカの経済をさまざまな角度からグラフ化した情報です。

12.Financial Times: 世界53の都市に600人以上の記者を擁し、国際ビジネス・金融・政治の分野で正確なニュースと分析を提供しています。

 

 

四、ビジネス・企業

1.Amazon API: これはAmazon自分のデータベースにアクセスするための出入り口で、Amazonから商品情報、在庫情報、注文情報などを取得できます。

2.Googleトレンド: Googleが蓄積している膨大な検索データをもとにした、人気急上昇のキーワードや特定のキーワードの検索回数の推移をグラフで確認できます。

3.HubSpot: 見込み客を惹きつけ、リードに転換し、顧客化を促すためのインバウンドマーケティング及びセールスのソフトウェアです。

4.Moz: キーワード調査、リンク構築、サイト監査、ページ最適化の洞察を含むSEOに関する洞察を提供します。

5.SEMrush: SEO対策のための競合分析はもとより、PPCSNSの分析などデジタルマーケティングに欠かせない機能がすべてそろったオールインワンツールです。 

6.Content Marketing Institute: コンテンツマーケティングに関する最新のニュース、研究です。

7.LinkedIn: ビジネス特化という性質を利用して、企業の人材採用や、個人の求職活動に利用されます。登録メンバーは5億人を超し、ビジネス情報を見つけることができます。

8.法人番号と企業情報: このサイトでは、前月末時点に公表している法人の最新情報を、全件データファイルとして提供するとともに、新規設立法人等の新たに法人番号を指定した情報、商号や所在地の変更及び閉鎖に関する日次の異動情報を差分データファイルとして提供しています。

9.OpenCorporates: 法人データのオープン化をグローバルに進めている世界最大の法人データベースサイトです。

10.Yellowpages: 地元の配管工、便利屋、整備士、弁護士、歯科医などの連絡先を見つけることができます。

11.Craigslist: 雇用、住宅、販売、サービス、地域社会、およびイベントのための地元の雑誌やフォーラムを提供しています。

12.iタウンページ: 日本全国のお店・企業の電話番号や地図、ルート案内まで全て無料で検索できます。

13.CertainTeed: アメリカまたはカナダの住宅請負業者、改造業者、設置業者、または建設業者を見つけることができます。

14.Manta: 製品、サービス、教育機会を提供する最大のオンラインリソースの1つです。

15.EU-Startups: EUのスタートアップに関するディレクトリです。

16.日本弁護士連合会: 日本全国の弁護士会弁護士会連合会からのメッセージを掲載しています。

 

五、ジャーナリズム・メディア

1.NewYorkTimes API: このAPIにより1851年以降に掲載された280万記事が検索可能になります。

2.Associated Press API: .AP Content APIを使用すると、APポータルにアクセスしなくても、独自の編集ツールを使用してコンテンツを検索およびダウンロードできます。

3.Google Books Ngram Viewer: Google Booksに収録された数百万冊のデジタル化された書籍の全文データから特定の単語の出現頻度を年代別に検出することができるツールです。

4.Wikipedia: インターネット百科事典です。

5.FiveThirtyEight: これは、世論調査の分析、政治、経済、スポーツのブログに焦点を当てたWebサイトです。

6.Google Scholar: 学術用途での検索を対象としており、論文、学術誌、出版物の全文やメタデータにアクセスできます。

7.Social Mention: ソーシャルメディア上で人々が日常的に行っている会話や自然な行動に関するデータを収集し、ユーザーに言及する出版物のリアルタイム検索エンジンです。

8.Facebook API: Graph APIを使用して外部からデータを取得したり投稿したり更新したりなどのことができます。

9.Twitter API: Twitterのタイムラインやlist、検索などのデータを利用できます。

10.Instagram API: Instagram APIプラットフォームを使用して、フォロワーの取得、 ユーザー検索、自分以外のユーザーの写真取得などができます。

 

 

六、不動産・観光

1.Castles: 1981年に設立され、住宅の販売、賃貸管理、調査および価値算定などのサービスを提供しています。

2.土地総合情報システム: 不動産の取引価格、地価公示都道府県地価調査の価格を検索してご覧になることができます。

3.土地代データ: 日本全国の土地価格データを掲載しています。土地価格相場、地域別平均値、地価ランキングが分かります。

4.サービス付き高齢者向け住宅: 全国のサービス付き高齢者向け住宅、全件が掲載されている唯一のサイトです。

5.日本旅行業協会: 世界旅行博の開催、キャンペーン情報の提供しています。

6.公共クラウドシステム(観光地情報): 日本全国の自治体の観光情報をオープンデータとして提供しています。

7.日本政府観光局(JNTO): 主要訪日旅行市場の基礎データを提供しています。

8.メリカ旅行業者協会(ASTA): 旅行専門家の世界最大の協会です。旅行代理店や、ツアー、クルーズ、ホテル、レンタカーなどの製品を販売している会社などのメンバー情報を提供します。

 

 

七、文化・教育

1.人文学オープンデータ共同利用センター: 情報学・統計学の最新技術を用いて人文学データの学術情報リポジトリです。

2.大学・大学院、専門教育: 学校教育に必要な情報を共有するポータルサイトです。

 

 

 

八、そのほか

1.Glassdoor: 企業評価やCEO評価、給与、福利厚生などの企業に関する口コミ情報を収集しています。

2.data.uni-muenster.de: 2011年に設立された、ドイツのミュンスター大学の科学データに関するオープンデータです。

3.Octoparse: 上記のすべてのWebデータをオンラインで収集する無料のデータ抽出ツールです。

データマイニングとは?その5つの特徴を知りましょう!

 

f:id:octoparse:20190911162217p:plain

 

データマイニングとは、DM(Data mining)の省略で、統計学パターン認識人工知能などのデータを解析する技法を使って、情報管理システムなどに蓄積された膨大なデータの中から、パターンや相関関係などを見出し、マーケティングや営業などに活用するテクノロジーです。

データマイニングにとってデータを分析した結果では「おむつとビール」がその中の逸話として、よく知られていると思うが、興味のある方はデータマイニングに関する面白い記事10選を読んでもらいます。

そして、今回では我々がよく言っているそのデータマニングに関する5つの特徴を解説してみます。

 

1、膨大なデータに基づく

 実際、ほとんどのデータマイニングアルゴリズムは小さなデータボリュームで実行でき、結果を取得できます。ただし、量がすくないデータの場合は、完全に手動分析で要約できる一方で、少量のデータは実際の世界の普遍的な特性を反映できないことがよくあります。ですので、データマイニングで正確的な結果を出すにはまず、膨大なデータを取得しかできます。Ocotparseという無料スクレイピングツールを利用すれば、何百万件のデータを正確的に収集してくれます。

 

2、高い信憑性を持つ

いわゆる信憑性とは「信用できる、または信頼できる度合い」を意味します。マイニングされたデータは事実に基づいて高い信憑性を持たなければならないです。単にその分野において地位や権力が高いオーラに左右されて、その人が言っていることが本当なのかを判断できず、真実から離れて行くことになるかもしれません。ですので、確実なデータに基づいて出た結論の方が信憑性があります。

 

3、データの裏側を見抜く

データマイニングとは、データから直接に伝われてくる知識ではなく、人が工夫してその中に隠されているものを発見することです。例えば、TableauやRAWGraphsなどの一般的なBIツールを使用するしか発見できない情報がたくさんあります。

 

4、未知性に富む

マイニングされた知識は、今まで誰も発見できない未知なものであるべきです。そうでなければ、単に専門家の言っていることを検証しただけです。新しい知識がどんどん発見されて、それを新しい技術に変えれば、世界を変えることになるかもしれません。

 

5、価値を持つ

マイニングの結果は、企業に直接的または間接的な利益をもたらさなければなりません。データマイニングはとても高級的に見えますが、実は役に立っていないという人もいます。これは単なる誤解です。一部のデータマイニングプロジェクトでは、明確なビジネス目標の欠如、データ品質の不十分、またはデータマイニング職員の経験不足などの原因で、データの最大価値を活かすことができません。しかし、データマイニングそのものの価値を最大限にすれば、成功したケースの多くは、データマイニングが実際に効率を改善するツールになり得ることも証明しています。

 

以上はデータマニングに関する5つの特徴でした。いかがでしょう。

今後のマーケティング活動において、大きなサポートになれるようなデータマイニングを導入する際には以上の5つの特徴をチェックしてから判断しましょう。きっとお役に立てると思います!