八爪鱼,百万用户信赖的网络爬虫工具

疫情当前,如何大规模获取最新的媒体报道与热点话题

作者:keven 发布时间:2/7/2020 8:54:47 PM 7139 人已阅读

摘要:疫情当前,及时获取最新的媒体报道与热点话题,成为很多人的刚需。那么如何大规模获取最新的媒体报道与热点话题?
紧张的疫情防控战打响后,疫情相关的媒体报道与热点话题在互联网各个平台喷发。微博基于其时效性强、互动性强和开放性强的特点,成为媒体报道和话题讨论的重要阵地。
  
   


及时获取最新的媒体报道与热点话题,成为很多人的刚需。面对疫情信息来源广、量级大、实时性高的现状,如果仅凭人力一条条翻阅,很容易陷入信息滞后、成本高昂的困局。

使用八爪鱼做好的采集模板,配合云上定时采集,可轻松实现大规模、实时采集疫情相关数据,以下将以微博为例详细讲解。其他平台(知乎、头条、微信等)的采集方法也是类似的。


一、实时采集媒体报道


第一步:找到各大媒体的微博账号,采集每个账号的主页链接八爪鱼提供:【微博-搜索博主】模板

1、如果已有目标媒体的微博账号和主页链接,可直接跳到第二步。

2、如果已有目标媒体,但没有其微博账号,可以通过微博搜索寻找。以目标媒体名作为关键词,选择【找人】,即可找到其微博账号,一般是搜索结果的第一个。

八爪鱼提供【微博-搜索博主】模板,满足以上采集需求。

Step1. 下载八爪鱼客户端,找到【微博-搜索博主】模板 ,点击【立即使用】。
 


Step2. 在【关键词】这个参数框中,输入已有的媒体名,例:深圳商报、成都商报(可同时输入多个关键词,用换行符隔开),然后【启动本地采集】。

Step3. 示例数据,获得目标媒体的微博账号和主页链接。采集结果会比较多,导出后用“关键词=用户名”手动筛选一下即可。

3、如果没有目标媒体,可以通过微博搜索寻找。输入关键词(日报/晨报/晚报/商报/都市报/速报/快报/青年报等),选择【找人】,即可找到一批媒体的微博账号。

关键词需根据媒体名的特性提炼。输入的关键词越多、越精准,得到的媒体账号就越多,后续采集到的疫情报道也就越多。

同样的,也可通过【微博-搜索博主】模板,满足以上采集需求。具体使用方法同上,只是,在【关键词】这个参数框中,输入的是 日报/晨报/晚报 这类模糊关键词。

示例数据,获得一批媒体的微博账号和主页链接。


第二步:访问每个账号的主页,采集其发布的报道八爪鱼提供:【微博-博主主页的博文】模板

通过第一步,已经获取到了媒体的微博账号和主页链接,之后就是依次打开每个链接,采集其发布的微博。需要采集的关键字段包括微博发布时间、正文、正文链接、转发数、评论数和点赞数等。

八爪鱼提供【微博-博主主页的博文】模板,满足以上采集需求。

Step1. 在八爪鱼客户端中,找到【微博-博主主页的博文】模板 ,点击【立即使用】 。


Step2. 在【网址】这个参数框中,输入我们从步骤一中获得的账号的主页链接(可同时输入多个网址,用换行符隔开)。


Step3. 示例数据,包含我们需要的微博发布时间、正文、正文链接、转发数、评论数和点赞数等字段。


经过以上操作,已经可以采集到目标数据。但是,上面使用的是本地单次采集,采集一次就结束了。如何实时采集每个媒体微博账号发布的报道呢?

第三步:实时采集每个账号发布的报道八爪鱼提供:云采集方案

通过八爪鱼提供的云采集方案,可实时采集每个账号发布的报道。

1、设置定时采集,定时最短间隔时间为1分钟。即采集模板最短可每间隔1分钟就自动启动1次。一般微博的更新时间间隔都会大于1分钟,因而不会漏掉更新的微博。

2、多个云节点并发采集,极大提高采集速度。在1的基础上,每次启动后,采集任务拆分成多个子任务,分配到多个云节点上并发运行,保证每次采集迅速完成。

3、在1和2的基础上,观察账号的更新频率,为采集模板设定合适的翻页次数,使得每次启动采集后,采集的都是新增的前几页的数据,而非多次重复采集历史数据。



二、实时采集热点话题


实时采集微博热搜榜中的热点话题八爪鱼提供:【微博-热搜榜】模板

微博热搜榜,实时提供大家正在搜的热点话题。通过微博热搜榜,可以追踪疫情每个时间节点下的热点话题和话题下的具体微博。


八爪鱼提供【微博-热搜榜】模板,满足以上采集需求。

Step1. 在八爪鱼客户端中,找到【微博-热搜榜】模板 ,点击【立即使用】 ,无需输入参数,直接启动【本地采集】。


Step2. 示例数据,获取到热门话题与话题下的具体微博。


微博热搜榜是实时变动的,可为【微博-热搜榜】模板设置定时云采集,实时采集热搜榜中的热点话题。具体方法在第一部分第三步中已详细说明,不再赘述。

已有一批热门话题,实时采集其搜索结果八爪鱼提供:【微博搜索】模板

如果已有一批热门话题,可通过微博搜索每个话题,查看搜索后得到的具体微博,以追踪其发展情况。

八爪鱼提供【微博搜索】模板,实现以上采集需求。

Step1. 在八爪鱼客户端中,找到【微博搜索-限云采集-免登陆】模板 ,点击【立即使用】 。

Step2. 在【检索关键词】参数输入框中,输入已有的热点话题,然后启动【本地采集】。

Step3. 示例数据,采集到搜索热点话题后的具体微博。


同样的,以上演示的是单次采集。我们也可为【微博搜索-限云采集-免登陆】模板设置定时云采集,以实时采集热点话题搜索后得到的具体微博。具体方法同上,不再赘述。


本文以微博为例,详细讲解了使用八爪鱼实时采集媒体疫情报道与热点话题的方法,关键点在于利用好采集模板+云采集这2大利器。再次说明,其他平台(知乎、头条、微信等)的采集方法也是类似的,可参考本文。

八爪鱼希望帮助更多有需要的人,及时获取第一手疫情信息,进而更好服务于疫情防控工作。

虽然最近的坏消息很多,新的一天总有新的苦痛和遗憾,但我们同心同德抗击疫情,必能度过难关。

 


欢迎咨询在线客服
加微信群,与更多用户一起交流