【8.0新手入门】第7课:翻页以采集多页数据
2019-10-28 15:01:27 阅读量: 28621
通过前几课的学习,我们已经学会了采集一页数据:列表、表格、点击链接进入详情的数据。
在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢?
本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。
一、点击 “下一页” 按钮翻页
点击页面上的 “下一页” 按钮翻页,是最常见的翻页方式。这个网站就是如此。http://deal.ggzy.gov.cn/ds/deal/dealList.jsp 。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
在八爪鱼中该如何实现翻页?以下为具体操作步骤。
步骤一、先创建1个任务
经过前几课的学习,我们已经学会了如何采集单个页面上的列表、表格、点击链接进入详情的数据。根据需求,先配置好1个采集1页数据的任务。
在这里,我以 采集列表数据 为例。先建立一个【循环-提取数据】步骤。
现在,第1页上的列表数据就全被采集下来了。接下来,我们想让八爪鱼自动翻页,去采第2页、第3页.....直到最后1页的数据。这就需要建立一个【翻页循环】。
步骤二、建立【翻页循环】
找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】。
这样,用【下一页】按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了。
特别说明:
a. 为什么要【循环点击下一页】?它的意思就是,让八爪鱼不断的多次点击 “下一页” 进行翻页,以实现采集第2页,第3页......直到最后一页数据。
b. 如果出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的,都用于创建循环翻页。
这个任务比较特殊,还需对采集步骤设置一下【执行前等待】。【执行前等待】的意思是,在执行此步骤前,先等待一段时间,等待时间根据网页加载时间而定。作用是等网页上要采集的数据完全加载出来以后,再执行步骤。
特别说明:
a. 什么时候需设置【执行前等待】?常见的情况是,手动执行任务没问题,可采集到数据。但是启动采集后八爪鱼提示“采集已停止”。此时可尝试给任务设置【执行前等待】。
b. 【执行前等待】还可用来模仿人浏览网页的行为,降低采集频率,避免网站出现防采集。
c. 几乎每个步骤都可设置【执行前等待】,请根据网页具体情况来设置。
步骤三、启动采集
1、点击【保存并启动】,选择【启动本地采集】。启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集)
2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。
示例数据:
关于【循环翻页】的几个技巧分享:
1、可以先建【循环翻页】,也可先建【循环-提取数据】。
八爪鱼会自动判断并调整步骤在流程中的位置。对于点击【下一页】翻页,标准流程如下图所示,它的执行逻辑是:【打开网页】→【采集第1页列表数据】→【翻到第2页】→【采集第2页列表数据】......【翻到最后1页】→【采集最后1页列表数据】→【所有页数据采完,自动结束采集任务】。逻辑执行详情请查看 第9课:采集原理与流程执行逻辑。
2、可通过【限制翻页次数】,控制翻页的次数。
如果只需要采集前3页数据,则设置翻页次数为【3】。
二、其他特殊的翻页
除了点击 “下一页” 进行翻页外,还有其他特殊的翻页方式。
1、点击“加载更多”、“再显示20条”等按钮进行翻页。常见的网页有:搜狗微信首页、微博评论。此类翻页解决方法请查看教程 特殊翻页:加载更多/滚动翻页/数字翻页
2、无翻页按钮,需不断向下滚动页面,加载出新数据。常见的网页有:百度图片搜索、今日头条首页。此类翻页解决方法请查看教程 特殊翻页:加载更多/滚动翻页/数字翻页
3、无翻页按钮,只有一排数字,需点击数字进行翻页。此类翻页解决方法请查看教程 特殊翻页:加载更多/滚动翻页/数字翻页
作者:Tovehy & Candice
编辑:Aisling