八爪鱼,百万用户信赖的网络爬虫工具

如何用数据分析揭示冠状病毒的真相

作者:keven 发布时间:2/18/2020 5:15:08 PM 4973 人已阅读

摘要:在这些日子里,我们都惧惮新型冠状病毒(2019-nCoV)。即便是轻微的咳嗽或低烧,都让我们恐惧是不是病毒。但是,真相到底是什么呢?

在疫情来临时候,我们海外OCTOPARSE的同事也在海外渠道发表了文章《How Data Analysis Helps Unveil the Truth of Coronavirus》,因为我们看到一些谣言,我们也试图通过自已的努力,让更多人知道真实的情况,这篇文章也在海外媒体上得到比较广泛的阅读,现在我们也将他翻译一下。

 

 

在这些日子里,我们都惧惮新型冠状病毒(2019-nCoV)。即便是轻微的咳嗽或低烧,都让我们恐惧是不是病毒。但是,真相到底是什么呢?

 

2月3日,有人发布了一则推文,错误的声称在USC的洛伦佐(Lorenzo),即聚集了很多中国留学生的地方,确诊了一名新型冠状病毒患者。紧接着,另一则推文出现,声称他朋友的室友的兄弟的女朋友也被感染。人们大量转发这则消息并感到恐慌。再后来,大学澄清这是只是一个谣言,没有疑似或确诊新型冠状病毒病例。

 

这就是如何谣言会变成了“事实”的过程---当人们对真相一无所知的时候。所以我们有必要收集官方以及非官方的数据,从而保持公正。更重要的是,公众能通过透明公开的数据对这次疫情有一个正确的认识。

 

本文的目的是采集数据,并使数据公开透明。当我们收集足够的信息时,它将帮助公众了解事实真相并且抑制极端观点

 

从主要来源采集数据

 

为了从每个网站提取数据,我选择使用网络抓取工具来代替写代码。虽然有很多工具都能实现网络抓去的功能,但我发现Octoparse是最好的选择。他们刚创建了一个抓取模板可以从中国卫健委网页的数据库中提取实时数据。这个模板非常容易,甚至我不需要配置抓取任务,每个人都能更容易地掌握数据。

 

数据分析

 

我收集了1月22日至2月4日的数据。数据表明,受感染的病例数在增加,并且没有任何放缓的迹象。但是,疑似病例的数量正在稳步下降。这说明更多人从疑似病例存量池中转入了确诊病例的存量池中,所以总体疑似病例的存量池在缩小。

 

 

可是,有一些人发现死亡人数有些奇怪。我提取了数字并做了一些研究。据数据显示,到目前为止,湖北省的死亡率为2.7%,而中国其他地区为0.19%。这说明湖北省的死亡率是全国其他地区的15倍。

 

在这种情况下,我们得出两个可能导致如此高差异的假设:

 

假设1:政府未如实报告确诊感染病例。

 

如果这个假设是正确的,则实际感染人数将是死亡人数除以0.19%,等于288,947。这样的结果与R0值(感染的繁殖数量)相矛盾,R0值是用于衡量病毒的传染性。大多数研究[Maclntyre,2020年]显示,这次暴发的病毒的R0值在2到2.5之间,这比季节性流感略高。所以,新型冠状病毒不可能具有如此强的传染力,以至于在不到一个月的时间内就会感染约30万人。

 

 

那么还有哪些其他因素会导致如此高的死亡率呢?

 

假设2:由于医疗资源短缺,人们无法及时接受治疗。

 

这种说法则更加靠谱。医疗用品,病床和医疗人员的短缺将导致更多的人除了在家中自我隔离外别无选择。但是自我用药不当会加重病情。此外,新型冠状病毒对本就患有健康问题的老年人来说是致命的,更不用说缺乏适当的治疗了。

 

所以新型冠状病毒并没有像美国大众所想象的那样可怕。因为美国拥有的医疗资源比世界上其他大多数国家都多,我们完全不应该对这种疾病感到如此恐惧,更何况美国和中国相隔了一个太平洋。不仅如此,美国政府还禁止过去14天以来去过中国旅行的人员入境(公民和永久居民的直系亲属除外)。于此同事,与新冠状病毒相比,发生在美国的季节性流感导致的1900万例感染和10,000例死亡才更应该令人担忧。

 

非官方数据——新闻报道:

 

自新型冠状病毒爆发以来,我还使用抓取工具从数十个媒体渠道收集了大量新闻报道。如果你没有使用过抓取工具,此视频可能有助于你使用抓取工具。

 

我在《华尔街日报》,《纽约时报》和《路透社》通过搜索关键词词“冠状病毒”的结果抓取了一些文章,从而对比几种新闻媒体之间的差异。

 

许多新闻文章都将重点放在爆发的严重程度上,却轻描淡写了诸如疑似感染和治愈数量等其他指标。这种不完整的叙述不仅对中国政府而且对疾病本身都容易产生错误的认识。从而导致了当大众看到其他人咳嗽,感冒甚至和别人握手时都会感到担忧。

 

我从《华尔街日报》上看到了沃尔特·米德(Walter Mead)撰写的这篇新闻文章,题为“中国是名符其实的东亚病夫”。且不论标题非常具有种族歧视,他的文章中甚至有数十处虚假信息。他说:“我们不知道新型冠状病毒将有多危险。有迹象表明,中国当局仍在努力掩盖问题的真相。” 在本文发表之日,WTO已经发现R0值在2左右,病死率不到3%,接近季节性流感。此外,文章中并没有任何证据证明中国政府试图隐藏任何东西。实际上,我从中国政府网站的开源数据库中获得的数据与WHO,CDC,ECDE,NHC和DXY的数据一致。有一些因素可能会影响数据准确性,但是,错误值只有是在允许的范围内,才不会受到全球主流媒体的质疑。

 

这让我想起1月31日看到的一则推文,当时一名亚裔女子说,一名白人患者和她开玩笑说不敢和她握手。这不是在Twitter上传播的唯一一则笑话。当成千上万的人开始感到恐惧时,冠状病毒却成为一种娱乐性质的内容,并且用于种族歧视。

 

这就像1980年代在美国爆发的HIV恐慌一样,导致了LGBTQ人群的犯罪化。传染病从而被公众用为歧视的理由。这难道不会让人感到愤怒吗?

 

我想引用《洛杉矶时报》(Los Angeles Times)专栏作家弗兰克•施勇(Frank Shyong)的话:“相互理解彼此的意愿可以保护我们免于恐惧以及灾难性后果。”让我们不要夸大这种疾病的威胁,也不要助长在这个国家领土上已经很严重的种族歧视。我们应该了解事实,不传播任何排外言论。

 

该文发表在

https://towardsdatascience.com/how-data-analysis-helps-unveil-the-truth-of-coronavirus-8430de107ba4

 

关于更多海外网页数据采集,可关注https://www.octoparse.com

 


欢迎咨询在线客服
加微信群,与更多用户一起交流