八爪鱼,百万用户信赖的网络爬虫工具

[译]用tableau可视化数据分析新型冠状病毒爆发过程

作者:keven 发布时间:2/19/2020 10:25:59 AM 5719 人已阅读

摘要:几天前,我发表了一篇文章,分析了新型冠状病毒(COVID-19)在对社会的影响。然而,有些人仍然对这次新型冠状病毒的爆发缺乏充分的了解。我认为有必要用数据可视化的方式更客观的展示这次爆发的情况。

本文是我们海外同事的创作,原标题为《Visualizing the Progression of the Coronavirus Outbreak》,也同步发表在国外各大可视化数据分析的圈子里反响也都还可以,今天就把它翻译过来。

 

几天前,我发表了一篇文章,分析了新型冠状病毒(COVID-19)在对社会的影响。然而,有些人仍然对这次新型冠状病毒的爆发缺乏充分的了解。我认为有必要用数据可视化的方式更客观的展示这次爆发的情况。

 

如何开始

 

首先,我从中国国家卫建委抓取数据开始,然后使用Tableau在空间上对疫情进展进行可视化分析。我创建了一个仪表板,在上面可以轻松切换日期和省份来查看详情。

 

声明:

 

请注意,我收集的数据截止到2月11日。在您阅读本文时,这些数据可能已过时,无法如实的反映新型冠状病毒爆发的情况。我将在本文后面介绍一种简单的方法来跟踪实时数据。这次我没有编程,而是使用网络抓取工具提取数据,因为它可以将数据转换为可用的格式,而不需要清理数据。

 

选择一个数据源

 

如果您通过Google搜索“新型冠状病毒”,我相信你会找到很多资源。然而即便是Kaggle等来源也是由其他人收集的二手数据,落后于中国官方网站等一手来源的最新数据。如果你是一名数据分析师,在数据的准确性和及时性方面有严格的标准,那么你应该避免用二手数据得出结论。

 

那么应该使用什么数据源呢? 主流的官方数据是个很好的选择。这次我选择了Coronavirus Update Source,因为它被保存为JSONs,这使我们能够通过API将各个城市的数据流传输到我们的系统。(阅读JSON文件的指导原则)。

 

 

抓取模板

 

提取实时数据的另一种方法是使用抓取模板,就像我在上一篇文章中所做的那样。对于不会写代码的人来说,这是一个非常简单的解决方法(观看此视频以获取详细信息)。您可以设置抓取的时间来获取最新数据。这是我收集的数据,仅供参考。

 

使用Tableau进行数据可视化

 

在获得大量数据后,我们可以将其上传到Tableau。首先通过简单地将省/市拖拽到控制面板来创建一个地图层。之后再添加时间序列和累积值,以便全面了解每个省的数据趋势。我提出了湖北省,以便我可以单独关注它的数据趋势。这张地图显示了自1月22日以来过去20天里冠状病毒的历史传播情况。截至2月11日,仅湖北确诊感染人数就达到33366人。

 

 

可以说,除了湖北,这次疫情对广东,浙江,湖南和河南也有很大影响。

 

 

请注意,湖北报告的病例明显多于所有其他地区病例的总和。因此我创建了一个组并将它们分为两类:湖北和其他。为了更好地了解爆发的原因,我还添加了趋势线以分析当前情况。

 

湖北和其他地区都开始在趋势线下方滑动,这表明确诊病例呈下降趋势。但是,死亡人数并未显示出积极的变化,数字仍然高于趋势线。

 

 

 

而湖北省以外的各省市治愈率似乎是一个令人欣喜的消息,因为随着时间的推移趋势趋线越来越陡峭,更多的区域的治愈率都在向上移动,表明治愈率的势头有所增加。而治愈率也会随着更严谨迅速的防御措施越来越明朗。

 

 

最后的想法:

 

我制作了动图,因为这是一个很好的方式来了解大体的趋势,我们可以很清楚的看到疫情的进展过程。一旦我们将数据可视化,就更容易分析了。数据分析的最大挑战就是数据收集。以前我也经常把大部分时间花在这些繁琐的工作上,而且还需要手动修复数据格式。现在我发现网页抓取工具可以大大提高工作效率。然而,我不建议滥用和过度采集任何网站,这将导致严重的法律后果。查看这篇文章以获得更多信息:网络抓取合法吗?

 

我之后还会努力改善可视化效果,如果您有任何想法,欢迎随时和我交流。

 

本文发表在:

https://towardsdatascience.com/visualizing-the-progression-of-the-coronavirus-outbreak-a586cf1dc879

更多数据采集,也可关注

https://www.octoparse.com

 

 

 

 

 


欢迎咨询在线客服
加微信群,与更多用户一起交流