八爪鱼,百万用户信赖的网络爬虫工具

如何获取疫情地图中的原始数据

作者:keven 发布时间:2/6/2020 2:55:02 PM 17337 人已阅读

摘要:疫情专题离不开数据支撑。疫情专题中的原始数据从何而来?疫情专题实时更新的数据如何采集下来?还有什么疫情相关的数据有价值,可采集?本篇文章将详细解读。

2020年的春节,新型冠状病毒肺炎疫情来势凶猛。


想必很多人和我一样,每天睁开眼睛,马上点开疫情地图看看全国各省市的病例数。


互联网和大数据飞速发展的今天,疫情信息透明度极高。疫情爆发后,腾讯新闻、凤凰新闻、阿里健康、人民日报、网易新闻、百度等多家新闻媒体快速上线疫情专题,包括疫情地图、实时动态、辟谣防护知识、医疗信息等栏目,对疫情各维度的情况实时追踪。





疫情专题离不开数据支撑。疫情专题中的原始数据从何而来?疫情专题实时更新的数据如何采集下来?还有什么疫情相关的数据有价值,可采集?


以下将详细解读。



01 采集国家及各地卫健委官网每日发布的疫情通报为疫情地图中全国各省市病例数据提供数据支持


国家及各地卫健委官网,每日以文章形式发布疫情通报。各媒体利用爬虫技术,将这些疫情通报的文章实时采集下来,从文章中提取有效病例数据,再以地图、折线图等可视化图表和表格形式展示病例数据和疫情走势,方便大家查阅。

 

 

我们从疫情地图中看到的病例数据,是经过处理后的、方便查阅的二手数据。如果想要从国家和各地卫健委官网获取第一手数据,怎么办?


以国家卫健委为例。从1月11日起,国家卫健委每日发布1篇文章,通报全国疫情总体情况,包括全国每日新增确诊、新增疑似、新增治愈、新增死亡数和累计确诊、累计疑似、累计治愈、累计死亡数。

 


如果需要以上一手数据,八爪鱼已上线国家卫健委采集模板,免费提供给大家使用。通过此模板,可以采集到每日发布的疫情通报文章,通过处理可提取出有效病例数据。国家卫健委其他栏目(防控动态、通知公告、医者风采、防控知识、新闻报道)的文章也可以通过此模板采集。

 


以采集疫情通报栏目下的文章为例,此模板的使用方法:


Step1. 下载八爪鱼客户端,找到【国家卫健委-疫情防控动态】模板 ,点击【立即使用】 

 



Step2. 在【网站类目网址】这个参数框中,输入疫情通报栏目的网址:http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml ,然后【启动本地采集】

如果要采集其他栏目,则按照模板介绍,在【网站类目网址】参数框中,输入相应网址。

 



Step3. 示例数据




02实时采集疫情地图中全国各省市病例数据为研究疫情发展走势提供数据支持


各媒体疫情地图的病例数据,数据源基本都是国家及各地市建委发布的疫情通报,相差不大。疫情地图是实时更新的,十分详细的展示当前时刻全国各省市的新增和累计病例数,但无法查看到历史时刻的数据。



对于研究疫情发展走势而言,历史数据十分重要。如何找回历史数据?

 

1、从国家及各地卫健委官网找第一手数据,参考第一部分的内容。

2、从现在开始,实时抓取疫情地图中的病例数据并存储下来,做数据积累。


由于各家的疫情地图数据相差不大,我们就选择了腾讯新闻的疫情地图做采集模板。大家可从现在开始,使用八爪鱼的云采集设置定时采集计划,实时采集疫情地图中的病例数据。


此模板的使用方法:


Step1. 下载八爪鱼客户端,找到【国家卫健委-疫情实时数据】模板 ,点击【立即使用】,无需输入参数 ,直接【启动本地采集】


Step2. 示例数据

 


03采集社交/新闻平台疫情相关数据助力疫情舆情分析


互联网上遍布疫情信息。采集疫情相关信息,是进行疫情舆情分析的第一步。除政府网站如国家及各地卫健委实时发布疫情通报、通知公告、防控动态、新闻报道外,各社交/新闻平台也充满疫情相关的讨论之声。


以微博和知乎为例。可以在微博和知乎上进行疫情相关的关键词搜索,采集出现的微博结果、知乎问题和回答。进而分析疫情热度与时间变化趋势、疫情不同时间段关注重点、相关文本的情感正负面情况等。如需上述数据,八爪鱼提供【知乎-关键字搜索回答】、【知乎-问题详细答案】和【微博搜索】的采集模板。


微博模板的使用方法:


Step1. 在八爪鱼客户端中找到【微博搜索】模板,点击【立即使用】



Step2. 在【搜索关键词】参数输入框中,输入疫情相关关键词(可输入多个关键词),然后【启动云采集】


Step3. 示例数据


知乎模板的使用方法:

 

Step1. 在八爪鱼客户端中找到【知乎-关键字搜索回答】模板,点击【立即使用】



Step2. 在【关键字】参数输入框中,输入疫情相关关键词(可输入多个关键词),然后【启动云采集】


Step3. 示例数据

 


毫无疑问,互联网和大数据带来的信息透明化,对抗击疫情发挥着重要的积极作用。通过国家卫健委等权威机构实时发布的病例数据和防控动态,我们得以接近疫情的真实情况、积极响应防控政策。通过确诊小区查询、确诊同乘查询等平台,我们得以及时地发现、规避感染风险。通过知乎微博等平台,科普、辟谣、讨论、求助、监督等优质信息得以高效传播。


这一切离不开原始数据的采集。如果您刚好对这些多维度的疫情数据感兴趣,希望本文对您有所帮助。


没有一个春天不会到来。在她到来之前,八爪鱼与您,共度时艰。


欢迎咨询在线客服
加微信群,与更多用户一起交流