Webスクレイピングを用いたEコマース価格戦略

ここ数年、ネット通販を副業として、個人事業を立ち上げたサラリーマンや主婦の方が増えてきています。ネットショップの開設が簡単であることは間違いありませんが、もちろん誰でも簡単に成功する訳ではありません。

特に「価格戦略」や「価格設定」は簡単に身につけることではありません。皆さんが知っているように、正しい価格設定がeコマースにとって従来以上に重要になっています。約90%の消費者は、オンラインで商品を購入する前に、さまざまなネットショップで価格を比較すると答えています。eコマースの経営者として、まともな利益を上げながら競争力を維持する最適な価格をどのように設定すればよいでしょうか?

この記事では、新規販売者がeコマースビジネスを習得するための3つの戦略と紹介したいと思います。

 

ステップ1. 最適な価格を設定する

経営者としては、「できる限り高く売って、利益を多くとりたい」と考えているでしょう。しかし、「値段を高めに設定したり、値上げをしたりするとお客さんが離れていくの……?」という不安もあるでしょう。

利益を最大化するためには、「適切」な価格を探る必要があります。

例えば、製造コスト0.7ドル/本のThug lifeサングラスを販売するつもりです。eコマースの「コストプラス方式価格設定」に基づいて、製造時の原材料費、人件費、設備費から割り出した1商品あたりの原価に対して、利益を上乗せする形で価格を設定します。

コスト+利益=販売価格

もし、50%の利益を作ろうとした場合、計算すると、

材料費:$0.7

送料:$4.39

販売価格:($ 0.7 + $ 4.39)*150% = $ 7.63

この価格で売れるかな?

普通には、自分の感覚ではなく、まず市場データを集めながら俯瞰的に見て価格を設定しますね。実際にやってみましょう。

まず、Octoparseを使ってeBayをスクレイピングし、Thug lifeサングラス/ 8ビットピクセルサングラス(異なるタグを持つ同じ製品)の価格、販売数、および販売者についてのデータを収集します。

 

 

次、それらのデータを整理します。最も人気のある価格は$ 0.99で、4502点が販売されました。2番目に人気があるのは$ 1.99で、2331点が販売されました。2つの間の価格帯、そして1.99ドルを超えてはそれほど人気ではありません。その中では、$0.99を設定する販売者が24人、$4.99ドルのは13人、$1.99のは9人がいます。もし先のように$ 7.63に設定すれば、高すぎであまり売れませんよね。

 

 

それから、売り上げを計算をしてみましょう。

$0.99のサングラスは最大の市場需要を持っていますが、成長する余地はほとんどなく、それに$1.99と比べると、売り上げも少なくなります。結論として、$1.99が最適な価格です。

 

 

ステップ2. 動的価格を設定する

前述のように、コストプラス方式価格設定は、単に商品原価に利益を加えて、価格を決定する最も簡単な方法で、多くの企業で用いられているプライシング手法です。しかし、このような単純な手法は、経営者を市場の他の競争相手を無視するようにさせるかもしれません。たとえば、価格1で固定価格を保持している場合、Xの金額の収益しか得られず、YとZの部分を見逃すことになります。

 

動的価格設定は、現在の市場での需要や競合状況に応じて柔軟に設定価格を変える価格戦略のことです。つまり、常に市場を監視することで最適な価格で設定することができます。理想的には、価格1,2,3,4…で市場をカバーしていれば、売り上げはX、Y、Zなどの合計です。

 

動的価格を設定するには、次のことが必要です。

  • 二重価格表示

ネットショップでは元の通常販売価格と、割引き後の価格を並べて表示することを二重価格表示と呼んでいます。セール期間中などは特によく見かける表記ですよね。もちろん消費者に対し、セール価格が「安い」との誤認を与える場合があり得ます。ですから、景品表示法違反とならないように注意すべきです。

 

  • 抱き合わせ価格

複数の製品やサービスを一緒にして合わせて付けられた価格で、抱合せ販売されるのは非常に一般的です。金額を安くするので損するような感じがますが、単体で販売するよりセットの方がたくさんの商品を買ってもらえるので、全体的には売上は上がるのです。

  • おとり商品

利益ゼロ、あるいはコスト割れの価格をつけた商品をいくつかして、お客さんを自分のネットショップにひきつけることで、他の商品の販売を増進させることができます。こうした商品をおとり商品、あるいはロス・リーダー(損失先導商品)といいます。おとり商品の選定については、知名度が高くしかも必要度の高いものが選ばれるのが通例です。

 

  • 浸透価格

浸透価格とは、新製品の発売初期の価格を比較的低い水準に設定し、できるだけ早く市場全体への漫透をはかり、市場シェア(マーケット・シェア)を拡大することによって長期的な収益を上げるためによく採用され戦略です。当初はたとえ儲からなくても、インパクトのある低価格で消費者を魅了し、販売量を急激に増加させてマーケットシェアNo.1を確保したところで、大量生産によって生産コストを大幅に削減し、収益を拡大するシナリオを描いていくのです。

 

ステップ3. 経費を管理する

経費は利益を減らす直接の要素となりますので、利益を最大化するために、その用途は誰でもわかるように費目別に管理しなければなりません。そうすると、価格戦略をより良い把握できます。最も一般的な経費は次のとおりです。

 

 

まとめ

価格設定はeコマースの経営者にとって不可欠です。したがって、1日ごとまたは一週間ごとに価格を監視することが重要です。Octoparseは、Amazon、eBay、Yahooショッピングなど、あらゆるECサイトからデータを収集するための優れた無料ツールです。リアルタイムの価格監視を達成するには、スクレイピング作業をスケジュールすることもできます。あなたの製品やサービスですぐに使えそうな価格戦略がありましたら、ぜひ活用してみてください。

Facebookからデータを収集する前に知っておくべき5つのこと

 1. 実際、robots.txtファイルによると、Facebookスクレイピングを禁止している

Webサイトをスクレイピングするする前に、必ずrobots.txtを確認してください。Robots.txt は、Googleなどのロボット型検索エンジンクローラーの巡回を指示するファイルです。ターゲットWebサイトのURLの最後に「/robots.txt」を加えることによってファイルにアクセスすることができます。 

ブラウザにhttps://www.facebook.com/robots.txtを入力して、Facebookのrobotsファイルを確認しましょう。この2行はファイルの末尾にあります。

それは、Facebookがすべてのデータスクレイピングを禁止すると表示しています。つまり、Webサイトのどの部分にも自動クローラーがアクセスすることはできません。

なぜrobots.txtの規則に従うべきですか?

robots.txtを利用すると、「指定したWebページやファイルに対するアクセス可否」をクローラーの種類別に指定することが可能です。robots.txtファイルに従うことは、非公開の情報を盗むため使ったり、スクレイピング禁止するWebサイトを無断でスクレイピングしたり、著作権者の同意なく著作物をコピーするなどの非倫理的なデータ収集や法的な問題を回避することができます。

 

2. Facebookからデータを収集する唯一の合法的な方法は、事前に書面の許可を得ることだ

Facebookは、robots.txtファイルの冒頭で次のように警告しています。「明示的な書面による許可がない限り、Facebookスクレイピングは禁止されています。」

 

2行目のリンクを確認すると、FacebookAutomated Data Collection Terms(自動データ収集規約)が見つかります。これは2010年4月15日に改訂されました。

 

ソーシャルメディアの巨人として、Facebookには資金、時間、そして専任の法務チームを持っています。自動データ収集規約を無視してFacebookスクレイピングを進めても大丈夫ですが、少なくとも「書面による許可」を得るように警告されます。時には彼らは違法なスクレイピングに対してかなり攻撃的である可能性もあります。

 

 

3. GDPRが施行された後は、個人データをスクレイピングしようとしている場合に訴訟を起こす可能性が高くなる

GDPREU一般データ保護規則)が2018年5月25日から施行されます。これはこの20年以来データプライバシー規制の最も重要な変更であると言われています。テクノロジーから広告、そして医療から銀行業務に至るまで、あらゆる面で大きな変化を強いることになります。

Facebookのようなテクノロジー企業のように、大量の消費者データを保管し処理する企業や組織は、GDPRの下で最も影響を受けます。以前は、ユーザーデータを保護するために、会社は規則を強制していました。今GDPRの下で、彼らは法律を完全に遵守していることを確認する必要があります。

ただし、良いことはGDPRは個人データにのみ適用されるのです。

ここで「個人データ」とは、特定の個人を直接的または間接的に識別するために使用される可能性があるデータを指します。このような情報は、個人の識別情報(PII)と呼ばれ、個人の名前、住所、メールアドレス、電話番号、IPアドレス、生年月日、雇用情報、さらにはビデオ/オーディオの記録も含まれます。

もし個人データをスクレイピングしていない場合、GDPRは適用されません。

簡単に言えば、本人の明示的な同意を得ていない限り、GDPRの下でEU居住者の個人データをこすることは現在違法です。

 

 

4. 必要に応じてFacebookからデータを収集することができる

robots.txtを無視してクローリングを行ったことがあれば、ルール違反のために法的な問題が起こるわけではありません。

ソーシャルメディアから収集されたデータは、間違いなく人間の行動や現実の出来事に関する最大かつ最も活躍ななデータセットです。10年以上にわたり、世界中の研究者やビジネス専門家がスクレイピング技術を利用してFacebookから収集した情報で、個人、グループ、社会を理解できる代表的なサンプルを作成し、データに隠されたまったく新しい機会を探っています。

ユーザーにとっては、ソーシャルデータの使用は必ずしも悪いことではないことに同意するでしょう。たとえば、マーケティングをパーソナライズするためのソーシャルデータを使って、パーソナライズマーケティングを実施するのは、インターネットを自由に保ち、広告やコンテンツをより関連性の高いものにすることができます。

Facebookは昨年4月からAPIのアクセス制限を実施しました。APIがなければ、ユーザーインターフェース、つまりWebページを介してのみFacebookのデータを取得できます。この時はスクレイピングツールの出番です。「2018年ソーシャルメディアスクレイピングツールトップ5」という記事をご参考ください。

 


5. Facebookの代替ソースを探しよう

前述のように、Facebookではすべての自動クローラーを禁止していますが、技術的にサイトからデータを収集することは依然として可能です。もちろんこれは危険です。

法的な影響以外にも、Facebookが不審なIPをブロックするため、定期的に目標データを取得することが難しくなります。そして厳しいブロッキングカニズムを実装する可能性さえあり、それはサイトからのデータスクレイピングを全く不可能にするかもしれません。

ですから、TwitterInstagramなど信頼性の高いソースからソーシャルメディアデータをスクレイピングすることをお勧めします。

【Python】マーベル映画における男女格差を調べてみた

11年続いたマーベル・シネマティック・ユニバース(MCU)の「アベンジャーズ」シリーズがいよいよ完結しました。待ちに待った「アベンジャーズ エンドゲーム」が4月26日に公開され、MCUファンではない私も観に行ってきました。さすが集大成の作品です!MCU史上最高傑作と断言してもいいでしょう。

マーベル映画といえば、今年もう1本の作品「キャプテン・マーベル」が3月15日公開されました。この作は、マーベル・シネマティック・ユニバース初の女性ヒーローの単独主演作です。これまで「ワンダーウーマン」、「ジェシカ・ジョーンズ」や「ブラック・ウィドウ」など、女性ヒーローも登場してきました。それは、映画業界ににおける女性の立場の変革を、マーベル作品を通じて訴えると思います。

この記事では、この20年間の2000本映画作品に出る俳優の名前に性別分析を行い、Pythonを使って毎年各映画の男女比率を計算し、映画業界における女性登場人物の変化を見たいと思います。

 

まず、Octoparseを使って「Box Office Mojo」から2000年ー2019年の映画情報をスクレイピングします。この20年間のURLをOctoparseに入力して、ループ抽出リストを作成します。

 

抽出されるデータフィールドは「Title, Actors, Distributors, Domestic_Total_Gross, Foreign_Gross」です。約20分後、20年間で2000本映画の詳細をすべて入手できます。

 

次に、テキストがトークン化されるように、Pythonでデータを整理します。

 

それから、一年の映画の中で女性と男性の俳優の人数を取得します。これを行うために、名前分析を通じて性別を分かる性別辞書リストをロードしました。

 

完全のコードはこちらからダウンロードできます。

 

リストを取得した後、以下のようにデータを視覚化してみました。実線は実際の数を示し、 点線は発展傾向を示しています。

2本の線が同じ方向に動いていて、2010年までに上昇し、2011年にピークに達し、それから落ちました。俳優の人数は減っていることを明らかに見えます。このデータから、映画業界は明らかな男女格差が生じていると推察できますが、この数年、この格差がだんだん縮小していることも分かります。

 

マーベル映画はどうですか?

 

 

対照的に、どちらの線も2012年以降上昇しており、2012年から2013年の間に急増しています。さらに、女性俳優もこの時期から増えています。それは、映画業界がより多くの女性俳優をヒーローシリーズに紹介しようとしているという事実に言えます。2012年からの景気回復期はヒーロー映画の流行と男女俳優人数のバランスで重要な役割を果たしています。ヒーローのイメージ、「自由」と「民主主義」の概念を含む国民的アイデンティティを表しています。女性俳優は主人公ではないかもしれませんが、ストーリーラインを前進させ始めているから。ハンガーゲーム(2012)、ダイバージェント(2014)、ルーシー(2014)、マッドマックス:フューリーロード(2015)、ローグワン:スターウォーズストーリー(2016)、ワンダーウーマン(2017)など、映画に登場する異なるタイプのスーパーヒロインはますます増えています。スーパーヒロインの人気は女性の権利をまた一歩前進させるでしょう。

 

映画業界は、まだまだ発展できるので、もっと魅力的で斬新な映画が観られるのです。女性の活躍を描くような映画も増えると感じられますね。

【Python】ドナルド・トランプにおけるTwitter民の感情分析

今世界で最も話題の人、ドナルド・トランプ米大統領は就任から3年目になりました。大統領就任後、相次いで発信されるツイートがさまざまな波紋を引き起こしています。トランプの「迷」言集はいつもニュースやソーシャルメディアで響いて、日本のマスコミでも、彼の失言や暴言を切り取って面白おかしく報じています。トランプは馬鹿か、戦略家かって、市場の評価も両極端です。

この記事では、Webスクレイピングツールを使って、ドナルド・トランプに関するツイートを抽出します。それからPythonを使ってデータマイニングと感情分析を行い、大統領についての公衆の声を見つけます。最後に、Tableau publicを使ってそれらのデータを視覚化します。

それでは、早速スタートです!

 

Webスクレイピングでデータを収集する

Octoparseを使ってスクレイピングから始めます。公式サイトから最新バージョンをダウンロードし、指示に従って登録を完了しました。ログインしたら、組み込みのTwitterテンプレートを開きます。

 

抽出されるデータ

投稿者
投稿時間
コンテンツ
画像のURL
ツイートURL
コメント数、リツイート数、いいね数など

Webクローラーにキーワードを伝えるためにパラメータフィールドに「Donald Trump」と入力します。見た目と同じくらい簡単で、私は約1万件のツイートを得ました。もちろんあなたはできるだけ多くのツイートをスクレイピングすることができます。ツイートを取得したら、データをテキストファイルとしてエクスポートし、ファイルに「data.txt」という名前を付けます。

 

 

Pythonデータマイニングと感情分析を行う

始める前に、Pythonテキストエディタがコンピュータにインストールされていることを確認してください。私はPython 2.7とNotepad ++を使います。

それに、2つの意見単語リスト(ダウンロードはこちら)を使用して、抽出されたツイートを分析します。これら2つのリストには、Minqing HuとBing Liuによってソーシャルメディアで出た意見語についての調査研究からまとめた肯定的な単語と否定的な単語(感情の単語)が含まれています。

ここでは、リストから各意見語を取り出し、ツイートに戻り、ツイートの中の各意見語の頻度を数えたいと思います。その結果、ツイートから対応する意見語とその数を収集します。

まず、ダウンロードした2つの単語リストによって、肯定的なリストと否定的なリストを作成します。それらのリストはテキストファイルから解析されたすべての単語を保存します。

 

次に、次のコードを使って句読点、記号、および数字をすべて削除してテキストを前処理し、データをまとめます。

分析を容易するために、データはトークン化された単語のみで構成されます。その後、word_count_dict、word_count_positive、およびword_count_negativeの3つの辞書を作成します。

それから、各辞書を定義します。データに意見語がある場合は、word_count_dictの値を1増やして数えます。

計算した後、単語が肯定的か否定的かを判断します。それが肯定的な単語である場合、word_count_positiveはその値を「1」増加させます。それ以外の場合、肯定的な辞書は同じ値のままです。同じように、word_count_negativeはその値を増やすか、同じ値のままにします。その単語が肯定的なリストにも否定的なリストにも存在しない場合、それは合格です。

コードの完全版については、ここからダウンロードできます。

 

感情:肯定的 vs. 否定的

その結果、5352個の否定的な単語と3894個の肯定的な単語を得ました。それらをTableau publicで開き、バブルチャートを作成しました。Tablau publicでバブルチャートを作成する方法をご参考ください。

 

肯定的な言葉の使用は一面的で、使用されている肯定的な単語は404種類だけです。最も頻繁に使用される単語は「like」、「great」、「right」で、ほとんどの単語の選択は「wow」や「cool」など基本的な口語です。しかし、否定的な単語の使用はより多面的で、809種類の否定的な単語があり、それらのほとんどは正式で高級なものです。最も頻繁に使用されるのは「illegal」、「lies」、「racist」です。「delinquent」、「inflammatory」、「hypocrites」などの他の高級な単語も存在しています。

 

 

まとめ

今回の分析により、ドナルド・トランプTwitterユーザーの間ではあまり歓迎されていないことを明らかに示しています。ただし、15000件のツイートをスクレイピングしたが、スクレイピングされたデータの中には、テキストの内容がない、意見がまったく表示されないツイートが5000件ありますので、その結果は適切ではないところがあるかもしれません。また、この記事の分析では、偏りのある意見(否定的または肯定的)にのみ焦点を当てています。きめ細かい感情分析は、さまざまな程度に、より正確であるべきです。

2019年スクレイピングツールトップ10

Webクローリング、またはWebデータ抽出とも呼ばれるWebスクレイピングは、単にWebサイトからデータを収集してローカルデータベースまたはスプレッドシートに保存するプロセスです。Webスクレイピングを初心者が聞いたら、遠ざけていく専門用語だと思われるかもしれないですが、実はあなたが思っている以上、実用しやすいものです。スクレイピングツールは、求人情報だけでなく、マーケティング、経済やeコマース、および数多くの他業界でも役割を果たしています。

Webスクレイピングツールはさまざまありますが、どれが一番なのかという疑問がある人はたくさんいるでしょう。ネットにあるほとんどのスクレイピングツールは極めて通用され、主に一般的で簡単なタスクを実行するように設計されているのです。つまり、期待しているほどカスタマイズ性や通用性に富んだものではないかもしれません。ご参考のために、この記事では人気のWebスクレイピングツールを10選まとめて、それぞれの特徴を紹介したいと思います。

 

1. Octoparse

Octoparse はWebサイトから必要とするあらゆるデータを抽出するために使用される、豊富な機能を備えた強力で無料なWebスクレイピングツールです。コーディングせず、インターフェースで簡単なポイントアンドクリック操作をして、Webサイトからすべてのテキストを収集ことが可能です。取得したデータはExcel、HTML、CSV、またはご指定のデータベースのような構造化フォーマットに保存されます。そのほかに、仕組まれたRegexツールでWebサイトにある難しく加工されたデータブロックにでき、仕組まれたXpathツールでWeb要素を正確に見つけることができます。さらにIPブロッキングに悩まされることはもうありません。OctoparseはIPプロキシサーバーが仕組まれているので、積極的なWebサイトに検出されずにIPの自動ローテーションが可能になりました。最後にOctoparseの新しいバージョンはAmazonTwitterIndeedなど、さまざまなのWebサイトからデータを抽出するために、すぐに使えるタスクテンプレートを提供しています。

メリット:Octoparseは私が今まで出会った最高の無料データスクレイピングツールです。これから話す他のツールより、Octoparse無料版は取得ページ数の制限なしで最も強力な機能を提供しています。タスクテンプレートでは、パラメータ(ターゲットページURL、検索用のキーワードなど)を入力し、データ収集を待つことだけです。

デメリット:残念ながら、OctoparseはPDFからデータを収集することも画像を直接ダウンロードすることもできません。でも、画像のURLを抽出することができます。 

 

2. Mozenda

Mozendaは、データ抽出に役立つ機能を備えたクラウドWebスクレイピングサービス(SaaS)です。Mozendaのスクレイピングソフトウェアには、WebコンソールとAgent Builderの2つの部分があります。Mozenda WebコンソールはWebベースのアプリケーションで、エージェントの実行(プロジェクトのスクレイピング)、結果の表示と整理、および抽出したデータのDropboxAmazonMicrosoft Azureなどのクラウドストレージへのエクスポートまたは公開することをサポートしています。Agent Builderは、データプロジェクトを構築するために使用されるWindowsアプリケーションです。データ抽出はMozendaデータセンター内の最適化されたハーベスティングサーバーでで処理されるため、Webリソースの読み込みからクライアントを解放したり、IPアドレスの禁止が検出された場合の脅威を軽減します。

メリット:MozendaはAJAXとiFramesのデータを簡単にキャプチャする包括的なAction Barを提供し、ドキュメントと画像の抽出もサポートしています。さらに、マルチスレッド抽出とスマートデータ集約に加えて、MozendaはIP禁止を防ぐためのGeolocation、バグを修正するためのテストモードとエラー処理を提供します。

デメリット:Mozendaは5000ページあたり99ドルで少し高いです。十分な論理機能を持てず、実行するためにWindows PCを必要とし、大型Webサイトを扱うとき安定性の問題も抱えています。 

 

3. 80legs

80legsは、カスタマイズされた要件に基づいて構成できる強力で柔軟なデータスクレイピングツールです。それは膨大な量のデータの取得と共に、抽出されたデータを即時にダウンロードするオプションをサポートしています。 80legsは、高速に機動し、わずか数秒で必要なデータを取得する高性能のWebクローリングを提供します。開発者は、クローリングネットを広げるために80legs APIを自分のアプリケーションに組み込むことができます。

メリット:80legsは、専用線アクセスを許可し、顧客がクローリングした分だけを支払うようにすることで、Webスクレイピングテクノロジを小規模企業や個人にとってより利用しやすくします。

デメリット:80legsは前に述べたほかのツールほどの適応性がありません。大量のデータを取得したい場合は、カスタマイズ取得するデータ、作成済みのAPI、およびクロールアプリケーションのいずれかを選択する必要があります。

 

4. Import.Io

Import.Ioは、Webページ内の半構造化情報から構造化データへの変換に役たつWebスクレイピングプラットフォームです。これはビジネス上の意思決定の推進からアプリケーションや他のプラットフォームとの統合まで、あらゆる用途に使用できます。ストレージとテクノロジはすべてクラウドシステムに基づき、Webブラウザ拡張機能を追加するだけでツールを使用できます。シンプルで直感的なポイント&クリックの操作スタイルは、ページとデータフィールドを簡単に選択することができます。JSON RESTベースおよびストリーミングAPIを介したリアルタイムのデータ検索、多くの一般的なプログラミング言語およびデータ操作ツールとの統合を提供します。

メリット:Import.ioは、ほぼすべてのシステムをサポートする最先端のテクノロジを使用して、何百万ものデータが取得できます。洗練されたインターフェース、シンプルなダッシュボード、スクリーンキャプチャ、そしてユーザーフレンドリーな操作ガイドビデオのおかげで、さらに使いやすくしてくれます。

デメリット:無料プランはもう利用できません。各サブページにも費用がかかるので、多数のサブページからデータを抽出していると、コストがすぐに高まる恐れがあります。それに、Webサイトの構造に大きく依存するから、すべてのWebサイトでは動作するわけではありません。

 

5. Content Grabber

Content Grabberは、Webからのコンテンツ抽出に使用される視覚的で強力なWebスクレイピングツールです。商品カタログや検索結果などの完全なコンテンツ構造を自動的に収集できます。それはユーザーにとって非常にフレンドリーでありながら、AJAX が使われたWebサイトを含む動的なWebサイトからデータを抽出するのに十分洗練されています。

Content Grabberは、高度なプログラミングスキルを持つ人々により適しています。強力なスクリプト編集、デバッグインターフェースを数多く提供しています。ユーザーはC#またはVB.NETを使用してスクリプトデバッグまたは作成し、クローリングプロセスをプログラミングによって制御することができます。たとえば、Content GrabberをVisual Studio 2013と統合して、ユーザーの特定のニーズに合わせて、高度なカスタマイズクローラーに最も強力なスクリプト編集、デバッグ、および単体テストすることができます。

メリット:Content Grabberは、サードパーティ製ツールを使用している多くのユーザーにさらに多くのオプションを提供します。ユーザーはOctoparseやParsehubでサポートされていないスクリプトデバッグすることができます。

デメリット:Content Grabberは無料版を提供しておらず、最低月額149ドルから始まります。旧バージョン機能はOctoparseの無料版で利用可能であることを考えると、かなりの高価です。その上、OctoparseやParsehubのように使いやすいものではなく、最初の扱いには少し理解しがたいかもしれません。

 

6. Scraper

Scraperはオンライン調査を促進、データをすばやくGoogleスプレッドシートにエクスポートすることができるわずかなデータ抽出機能を備えたChrome拡張機能です。Scraperは初心者だけでなく、OAuthを使用してデータをクリップボードにコピー、またはスプレッドシートに保存できる専門家を対象としています。Scraperはブラウザで機能し、対象URLを定義できるXPathを自動生成できる無料のWebクローラーツールです。包括的なクロールサービスは提供されないかもしれませんが、初心者には面倒な設定に取り組む必要はありません。

その仕組みは次のとおりです。特定のデータポイント、価格やランキングなどを選択して、ブラウザのメニューから[Scrape Similar]をクリックすると、データをExcelGoogle Docsにエクスポートまたはコピーできます。このプラグインは基本的なものですが、素早く簡単にページをスクレイピングするために作られたものです。

メリット:Chrome拡張機能として、簡単なスクレイピング作業だとScraperがすぐにできることは魅力です。

デメリット:Scraperはただの基本的なクローラーですから、簡単なWebページのみに、限られた抽出機能が持つ単純なクローリングプロジェクトを提供できます。 

 

7. Parsehub

ParseHubインタラクティブマップ、カレンダー、検索、フォーラム、ネスト化されたコメント、無限スクロール、認証、ドロップダウン、フォーム、JavascriptAjaxなどを簡単に処理できる視覚的なデータ抽出ツールです。ParsehubのデスクトップクライアントはWindowsMac OS XLinuxなどをサポートしています。ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。ParseHubは無料プランのほか、大量のデータ抽出ためのカスタマイズ法人プランも提供しています。

メリット:ParseHubはOctoparseのように、様々なニーズに適応してオンラインデータを収集できます。その利点といえば、Octoparseより多くのデスクトップシステムをサポートするところです。

デメリット:だが、 ParsehubはAPIアクセス権限を持つプログラマーによりフレンドリーです。無料版には5つのプロジェクトと最大200ページまでの制限があります。Octoparseのように、それはドキュメンテーション抽出をサポートしていません。そして、アドバンスアプションを使う時に問題が出るからもしれないので、注意する必要があります。 

 

8. WebHarvy

WebHarvyは、軽くて視覚的なポイント&クリック式のWebスクレイピングツールです。各種類のWebサイトからテキスト、URL、および画像を抽出することが可能です。抽出されたデータは一般的なフォーマット(CSV、Txt、XML)とデータベース入力用のSQLに保存することができます。また、匿名でスクレイピングし、Webサーバーによるブロック防ぐためのプロキシサーバー/ VPNも提供します。

メリット:WebHarvyは使いやすく覚えやすく安定です。いくつかのエクスポートデータ形式に対応でき、すばやくWebスクレイピングすることに優れています。

デメリット:ドキュメントの抽出をサポートしていないほか、無料版も提供していません。 

 

9. Scrapinghub

Scrapinghubは、インターネットから構造化された情報を抽出するために、いくつかの便利なサービスを提供している開発者向けのWebスクレイピングプラットフォームです。ScrapinghubにはScrapy Cloud、Portia、Crawlera、Splashという4つの主要なツールがあります。Scrapy CloudはScrapy(オープンソースのデータ抽出フレームワーク)Webクローラーのアクティビティを自動化・視覚化することができます。Portiaは機能が制限されていて、非プログラマー向けのWebスクレイピングツールです。Crawleraは、50カ国以上のIPアドレスを持ち、IP禁止問題の解決策です。SplashはScrapinghubによって開発されたオープンソースJavaScriptレンダリングサービスです。Splashブラウザを使うと、JSを使用しているWebページをより適切にスクレイピングすることができます。

メリット:Scrapinghubは、オープンソースフレームワークScrapyや視覚データスクレイピングツールPortiaなど、さまざまな地域の人々に合わせて適切なWebサービスを提供する強力なWebスクレイピングプラットフォームです。

デメリット:Scrapyはプログラマーに向け、Portiaも複雑なWebサイトを扱う場合では数多くのアドオンを追加する必要があるので、簡単に利用できません。 

 

10. Dexi.io

Dexi.Ioは、開発、ホスティング、およびスケジューリングサービスを提供するクラウドベースのWebスクレイピングツールです。なしでポイント&クリックのUIを備え、コーディングする必要がありません。簡単なタスクを作成するために、Extractor、Crawler、およびPipes、3種類のロボットがあります。取得したデータはJSON / CSVデータとして利用可能であり、またReSTを通して外部アプリケーションからアクセスすることもできます。このWebスイートは、CAPTCHA解決、プロキシソケット、ドロップダウンを含むフォームへの記入、正規表現のサポートなど、最新のWebスクレイピング機能のほとんどを提供しています。また、取得したコードのJavaScript評価もサポートしています。

メリット:ブラウザベースであるため、Dexi.io CAPTCHA解決はより便利なことです。それに、多くの第三者サービス(キャプチャソルバー、クラウドストレージなど)をサポートするから、それらをボットに簡単に統合できます。

デメリット:商用サービスとしてもちろん、無料版を提供していません。また、フローを理解するにはかなり複雑で、デバッグする場合もあるので面倒だと感じます。

 

いかがでしょうか?あなたのニーズに合わせて最適なスクレイピングツールを見つけましょう!

Webスクレイピングで知るべき5つのCAPTCHA知識

Webサイトにログインしようとしますが、読みにくい文字を入力するように求められたことがありませんか。これらの判読しにくい文字をCAPTCHAと呼ばれます。ユーザーにとって少し面倒な存在です。さらにWebスクレイパーにとっても利用環境が厳しくなったので、その扱い方に困りますね。

今日はWebスクレイピングでどうすればCAPTCHAをうまく回避するかを知るべき5つの知識についてお話しましょう。

 

 

1. CAPTCHAとは

 

Wikipediaによると、 CAPTCHA という語は(Completely Automated Public Turing test to tell Computers and Humans Apart)(コンピューターと人間を区別する完全に自動化された公開チューリングテスト)のバクロニムです。

特にインターネットで製品を購入する時やWebサイトにログインする時に使用されます。

 

 

2. CAPTCHAの仕組み

 

CAPTCHAは、人間のように機能できるマシンであるかどうかを判断するために使用されるチューリングテストに基づいて作られた技術です。 CAPTCHAの目的は、応答者にコンピューターでは対応できない問題を出して答えさせることです。ゆがんだ文字列と数字が使われることが多いところは人間にとって理解しやすいですが、スクレイピングツールにとってそれを認識するのが難しいです。書籍からスキャンした画像情報、さらにその画像から文字を読み取るように設置されている自動システムがあります。そのような複雑なシステムでさえ、あいまいにされたりひどく歪められたりしたような加工された情報を読み取るにも困難なことです。

 

 

3. CAPTCHAの種類

 

CAPTCHAの種類にはいくつか存在しますが、最も一般的なのはテキストCAPTCHA、画像認識CAPTCHAと音声CAPTCHAです。

テキストCAPTCHAは、2つの簡単な部分からなっています。一つ目は歪んだ画像にランダムな一連の文字または数字で、二つ目は文字または数字を入力するテキストボックスです。画像に表示される内容をテキストボックスに入力することで、応答者は人間であるかどうかを判別できます。

 

f:id:octoparse:20190403152745p:plain

 

単に内容を判別することはボットにとってそれほど難しいことではないです。その難易度を上げるために、数字を分かりやすく表示して基本的な数学の問題を出すCAPTCHA、さらに3D効果で文字を表示する3D CAPTCHAなどのデジタル化されたCAPTCHAも作られました。

 

 

f:id:octoparse:20190403152808p:plain

f:id:octoparse:20190403152816p:plain


 

画像認識CAPTCHAは通常、歪んだテキストではなく、物、動物、人間、または風景の画像を応答者に判別してもらいます。それから、パズルのピースを埋めるように正しい画像をドラッグして画像を完成させることで、人間とコンピュータプログラムを区別します。

 

f:id:octoparse:20190403152828p:plain

音声CAPTCHAは、録音からランダムな単語や数字を適当に組み合わせたり、さらに雑音を入れたりして流し、応答者に聞いた内容を入力してもらいます。スクレイピングボットに音声を判別することが難しいというところは音声判別CAPTCHAの優れた点です。

 

f:id:octoparse:20190403152832p:plain

 

 

 

 

4. CAPTCHAが導入された原因

 

現在では、コンピューティングが普及しつつあり、コンピューター化されたタスクやサービスが一般化になってきました。それで、セキュリティーのレベルアップがより重要なことになってきます。Webサイトでのログインや支払いなどをセキュリティーの環境で行うことを確保するために、コンピューター用CAPTCHAの開発が重要になってきました。

さらに、CAPTCHAはオンラインデータを自動的に収集したり、Webサイト、ブログ、フォーラムに自動的に登録したりするボットとスパムをブロックすることができます。スパム、不正登録、および他の違法行為によるオーバーランからWebサイトを保護します。 

 

 

5.CAPTCHAの回避策

 

CAPTCHAは、抽出の過程で設定されたクローラーを簡単に破壊ことができるので、それを回避するのはWebスクレイピングにとって非常に重要です。 CAPTCHAを回避するためのベストな方法はそれを避けられるように最善を尽くすことです。)Webサイトをスクレイプしすぎることは絶対に避け、人間らしく行動してください。(スクレイピングにブロックを避けられる方法をご覧ください。)

 

ログインページで避けられないようなCAPTCHAはまだたくさんあります。Octoparseでは、普段通り人間がサイトを閲覧するように、簡単にCAPTCHAを解決することができます。(CAPTCHAの回避策をご覧ください。)

自分でスクレーパーをコーディングする人々のために、CAPTCHA問題を解決するサービスを提供してくれるCAPTCHAソルバーがあります。たとえば、Death by CAPTCHA と Bypass CAPTCHAはユーザーにAPIを提供し、スクレイピングプロセスにCAPTCHAを自動的に解読することができます。これらのCAPTCHAのソルバーはテキストCAPTCHA、さらにreCAPTCHAも扱うことができます。

 

CAPTCHAはWebスクレイピングに痛みのような存在と言えるでしょう。しかし、心配する必要がありません。スクレイピングツールCAPTCHAのソルバーの発展に伴い、CAPTCHAはどんどん器用できなくなっています。いかにどんなCAPTCHAであろうと、それに対応できるボットが開発できます。そのおかげで、私たちはWebスクレイピングを楽しむことができます。

 

 

 

Webスクレイピングに関するよくある質問

最近では、ビッグデータ分析のため、データ集めにWebスクレイピングが行われることも増えており、スクレイピングという言葉も一般に認知されるようになってきましたが、ほかの分野の多くの人にとって謎のままです。Webスクレイピングサービスプロバイダとして、この謎を解けるために、一般的なWebスクレイピングの質問をまとめて紹介したいと思います。

 

1. Webスクレイピングとは何ですか?

Webスクレイピングは、WebハーベスティングおよびWebデータ抽出とも呼ばれ、基本的には、ハイパーテキスト転送プロトコル(HTTP)またはWebブラウザを介してWorld Wide Web上で利用可能なデータを取得することを指します。

さらに詳しく: Webスクレイピングの始まりはいつ?これからどうなる?

 

2. Webスクレイピングは何ができますか?

Webスクレイピングはデータの収集を目的としているため、データを必要とするあらゆる業界に適用できます。これは主に市場調査、価格監視、データ分析&マイニング、およびその他のほぼすべての分野で使用されています。

さらに詳しく:疑問に答えます!なぜWebスクレイピングを学ぶのか?

 

3. WebスクレイピングとWebクローリングの違いは何ですか?

WebスクレイピングとWebクローリングは、2つの関連概念です。前述のWebスクレイピングは、Webサイトからデータを取得するプロセスです。Webクローリングとは、通常Webインデックスを作成する目的で、World Wide Webを体系的に閲覧することです。

さらに詳しく:データクローラー

 

4. Webスクレイピングデータマイニングですか?

Webスクレイピングデータマイニングは2つの異なる概念です。Webスクレイピングは生データを収集することですが、データマイニングは大規模データセット内のパターンを検出するプロセスです。

さらに詳しく: データマイニング(Wiki)

 

5. Web全体からデータを抽出できますか?

Webスクレイピングは、ワールドワイドウェブ全体または少なくとも数十万ものWebサイトからデータをスクレイピングするために使用できると多くの人が信じています。これは実際には実現不可能です。異なるWebサイトは同じページ構造に従っていないため、1つのWebスクレーパーがすべてのページをスクレイピングするののは無理です。

 

 

6. ログインしたページにあるデータをスクレイピングできますか?

はい、もしあなたがWebサイト上でアカウントを持っていれば、ログインしたページにあるデータを簡単にスクレイピングことができます。ログイン後のスクレイピングプロセスは、通常のスクレイピングのプロセスと似ています。

さらに詳しく: ログインした後のデータ取得

 

7. 動的Webページからどのようにコンテンツを抽出しますか?

動的なWebサイトは頻繁にデータを更新します。たとえば、Twitterに新しいツイートが投稿されるのは常にあります。そのようなWebサイトからスクレイピングすることは、他のWebサイトをスクレイピングすることと同じですが、更新されたデータを継続的に取得するために、スクレイパーに特定の頻度でWebサイトにアクセスさせることができます。

さらに詳しく: クラウドでタスクをスケジュール設定する

 

8. Webスクレイピングで抽出したコンテンツを再投稿できますか?

コンテンツの再投稿は、著作権者の同意を得て行う必要があります。ボットを許可するWebサイトからテキストコンテンツをスクレイピングすることはできますが、それでも著作権を侵害しないようにこのデータを使用する必要があります。

 

9. Webスクレイピングは違法ですか?

Webスクレイピング自体は、データを効率的に収集する技術ですから、違法ではありません。ただし、非公開の情報を盗むため使ったり、スクレイピング禁止するWebサイトを無断でスクレイピングしたり、著作権者の同意なく著作物をコピーするなどの行為をすると、原則として違法となってしまいます。クレイピングする前にサイトの利用規約を読むことを強くお勧めします。

 

10. LinkedInやFacebookスクレイピングできますか?

この2つのWebサイトもrobots.txtファイルによる自動Webスクレイピングをブロックしており、LinkedInのデータをスクレイピングした企業とLinkedInの法的紛争は大きな話題となっています。しかし、もしそれらから公に利用可能なデータとリストを取得するだけなら、この2つのサイトを抽出することは可能です。

さらに詳しく: LinkedInから投稿をスクレイピングする

 

11. Robots.txtファイルとは何ですか?

Robots.txtは、Webサイトがスクレイピングできるかどうか、またはWebサイトの所有者が指定したとおりにスクレイピングする方法をクローラー、ボット、スパイダに伝えるテキストファイルです。そのため、Webスクレイピング中にブロックされないようにrobots.txtファイルを理解することが重要です。

 

12. スクレイピングにブロックされないようにはどうすればよいですか?

Webサイトをスクレイピングすぎると、多くのWebサイトがあなたをブロックするでしょう。ブロックされないように、スクレイピングプロセスをもっと人間らしくする必要があります。2つのリクエスト間に遅延時間を追加したり、プロキシを使用したり、異なるスクレイピングパターンを適用したりすると、ブロックされなくなります。

さらに詳しく: ブロックされずにWebサイトをスクレーピングする方法

 

13. CAPTCHAはWebスクレイピング中に解決できますか?

以前、CAPTCHAはWebスクレイピングの悪夢でしたが、今では簡単に解決できます。多くのWebスクレイピングツールには、抽出プロセス中にCAPTCHAを自動的に解決する機能があります。そして多くのCAPTCHAソルバーをスクレーピングシステムと統合することができます。

さらに詳しく:Webスクレイピングに関するCAPTCHAに知っておくべきこと

 

14. おススメのWebスクレイピングツールはありますか?

どのスクレイピングツールを選択するかは、対象とするWebサイトの種類とその複雑さによって異なります。必要なデータをすばやく順調に取得するのに役立ち、費用がお手頃なら、そのツールを選択できます。

さらに詳しく: Webスクレイピングツール30選

 

15. Webスクレイピングツールはサイト上のファイルを直接ダウンロードできますか?

はい、Webサイト上のファイルを直接ダウンロードして情報をスクレイピングするときにDropboxや他のサーバーに保存することができるスクレイピングツールが多くあります。