Tableauで新型コロナウイルスの感染状況を可視化してみた

数日前、「データ分析がどのように新型コロナウイルスの真実を明らかにするのか?」という記事を発表し、コロナウイルス(COVID-19)の社会的影響を分析しました。ただし、一部の人は、今回の爆発的な感染についてまだ完全に理解していません。ですから、今回はより客観的な視点から新型コロナウイルスの感染状況を可視化してみます。

 

始めるには

まず、Webスクレイピングから始めて、中国の国民健康委員会のサイトからデータを抽出し、Tableauを利用して感染状況を可視化します。また、ダッシュボードを作成して、日付と地域を簡単に切り替えて、より詳細に表示できるようにしました。

ダッシュボード

免責事項:

収集したデータは2月11日までであることに注意してください。この記事を読んでいる時、データが更新されなく、最新の状況を反映できない可能性があります。記事の後半でライブデータに対応する方法を説明します。今回はまた、コーディングしなく、スクレイピングツールを使って、データを抽出します。

 

データソースを選択する

コロナウイルスのデータをGoogleで検索すると、多くのリソースが見つかるはずです。Kaggleのようなソースは、他の人によって収集された二次データであり、中国の公式Webサイトのような一次ソースからの最新データより遅れています。正確性と適時性に厳しい基準を持っているデータアナリストの場合、二次データで結論を導き出すことは避けてください。今回、中国のCoronavirus Update Sourceを選択します。このサイト上のデータはJSONとして保存されているから、APIを介して個々の都市のデータをシステムにインポートできるようにしました。(JSONファイルのガイドを読む

json

 

スクレイピングテンプレート

ライブデータを抽出するもう一つの方法は、前回の記事で行ったように、スクレイピングテンプレートを使うことです。これは、コーディングができない人向けの一番簡単なソリューションです(詳細については、この動画をご覧ください)。最新のデータを取得するためにタスクスケジューラを設定できます。これが私が収集したデータで、自由にお使いください。

 

 

Tableauでデータを可視化する

膨大な量のデータを取得したら、Tableauにアップロードできます。まず省/市をドロップフィールドにドラッグするだけで、マップレイヤーを作成します。その後、時系列を追加して値を蓄積し、各省のデータトレンドを把握します。湖北省のデータ傾向に興味があるので、湖北省を引き出します。マップは、1月22日からの過去20日間のコロナウイルスの広がりを示しています。2月11日まで、湖北だけで確認された感染者数は33,366人に達しました。

ウイルス爆発

湖北以外にも、今回のウイルスは広東、浙江、湖南、河南にも大きな影響を与えていることがわかります。

報告された症例

湖北省から報告された症例は、他のすべての症例を合わせたものよりも大幅に多いから、グループを作成し、全てのデータを湖北省とその他の地域2つのカテゴリに分けます。拡散のルートをよりよく理解するために、トレンドラインも追加し、現在の状況を分析します。

湖北と他の地域の両方がトレンドラインの下に滑り込み始め、それは確認された症例の減少傾向を示しています。ただし、死亡者数は改善傾向を示していなく、数字は依然としてトレンドラインを上回っています。

確認された症例

死亡者数

幸いに、湖北省以外の地域の治癒率は、トレンドラインの上に上昇していて、改善傾向を示します。上でより多くの場所が上昇するため、明るいニュースのようです。人々は現在、感染予防などに迅速な行動を取っているため、治癒率は増加し続けると思われます。

治癒率

 

最後の感想

ウイルスの拡散ルートを全体的に理解するため、今回はアニメーションを作成しました。データを視覚化すると、分析がはるかに簡単になります。ですが、データ分析の最大の課題はデータ収集です。私もたくさんの時間を面倒なデータ収集作業に費やし、多くの場合、データ形式を手動で修復する必要もあります。今、Webスクレイピングツールを利用して、作業の効率を大幅に高めることができることがわかりました。ただし、Webサイトを過度にスクレイピングしたり、収集したデータを濫用したりすることはお勧めしません。

 

注:この記事はTowards Data Scienceで配信したものを加筆修正したものです。(オリジナルの記事を読む