通过前几课的学习,我们已经学会了采集一页数据:列表、表格、点击链接进入详情的数据。
在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢?
本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。
一、点击页面上的“翻页按钮”进行翻页
页面上用来“翻页”的按钮,可能是<下一页>,<后页>。以下边的网址为例https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4
在八爪鱼中该如何实现翻页?以下为具体操作步骤。
步骤一、先创建1个任务
经过前几课的学习,我们已经学会了如何采集单个页面上的列表、表格、点击链接进入详情的数据。根据需求,先配置好1个采集1页数据的任务。
在这里,我以 采集列表数据 为例。先建立一个【循环-提取数据】步骤。
现在,第1页上的列表数据就全被采集下来了。接下来,我们想让八爪鱼自动翻页,去采第2页、第3页.....直到最后1页的数据。这就需要建立一个【翻页循环】。
步骤二、建立【翻页循环】
找到并点击页面中的翻页按钮,在自动弹出的【黄色操作提示框】中点击【循环点击】。这样,用翻页按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了。
为什么要【循环点击】?它的意思就是,让八爪鱼不断的多次点击 【下一页】进行翻页,以实现采集第2页,第3页......直到最后一页数据。这跟我们在浏览器中,不断点击【下一页】按钮翻页,逻辑是相同的。
特别说明:
a. 如果出现的不是【循环点击】,而是【循环点击下一页】【循环点击单个XXX】怎么办?【循环点击】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击】【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的,都用于创建循环翻页。
步骤三、启动采集
1、点击【保存】,点击【采集】,选择【启动本地采集】,启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集,点击查看详细说明)
2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。
示例数据:
二、关于【循环翻页】的几个技巧分享
1、可以先建【循环翻页】,也可先建【循环-提取数据】。
八爪鱼会自动判断并调整步骤在流程中的位置。对于点击【下一页】翻页,标准流程如下图所示,它的执行逻辑是:【打开网页】→【采集第1页列表数据】→【翻到第2页】→【采集第2页列表数据】......【翻到最后1页】→【采集最后1页列表数据】→【所有页数据采完,自动结束采集任务】。逻辑执行详情请查看 第8课:采集原理与流程执行逻辑。
2、可通过【限制翻页次数】,控制翻页的次数。
如果只需要采集前3页数据,则设置翻页次数为【3】。
三、其他特殊的翻页
除了点击【下一页】 进行翻页外,还有其他特殊的翻页方式。
1、点击【加载更多】、【再显示20条】等按钮进行翻页。
常见的网页有:搜狗微信首页、微博评论。
此类翻页解决方法请查看教程 点击【加载更多】或【再显示20条】等按钮翻页
2、无翻页按钮,需不断向下滚动页面,加载出新数据。
常见的网页有:百度图片搜索、今日头条首页。
此类翻页解决方法请查看教程 滚动加载数据采集方法
3、无翻页按钮,只有一排数字,需点击数字进行翻页。
此类翻页解决方法请查看教程 无【下一页】按钮,点击数字进行翻页
作者:Mia