有的网页没有下一页按钮,但是有【加载更多】或【再显示20条】等按钮,通过不断点击这些按钮,可以实现翻页,加载出新数据。
针对这类网页,使用智能识别和自行配置的采集规则,都能实现翻页,具体设置方法如下:
一、智能识别实现【点击加载更多翻页】
示例网址如:果壳网
八爪鱼的智能识别,支持【加载更多内容】这种翻页的智能识别,如下图所示:
在 新手入门第8课:采集原理与流程执行逻辑 中,我们讲过,流程的执行逻辑是先从上至下、再由内而外。那上图中的流程的执行逻辑是:先打开网页,然后不断点击【加载更多内容】进行翻页,翻页全部完成以后,再提取所有列表数据。
这里有一个问题,如果网页【加载更多内容】这个按钮是可以无限点击的,那八爪鱼就会一直点击它,容易导致程序崩溃,采集不到数据。因此,我们可以设置一定的点击次数,让八爪鱼执行设置的翻页次数后,就开始采集数据。建议点击次数不超过500次,具体可根据网页情况和采集需求来。
在部分网站,在点击5次【加载更多内容】后就到底了,不再出现新内容了,因此,我们可以将它的翻页次数设为5,设置方法如下图所示:
启动本地采集,来看一下采集结果:八爪鱼先点击了5次【加载更多内容】,到达底部,此时页面中有100个文章列表。随后,八爪鱼将这100个文章列表的数据都采集下来了。
二、配置采集流程实现【点击加载更多翻页】
如果不用智能识别 ,可自己配置采集流程。
按照 采集列表数据 中的方法,配置一个【循环列表】。
再依次点击提示里的【加载更多按钮】,点击网页内的【加载更多】
这样在右边就会建立起采集规则
同样的,我们根据网页情况,设置合适的翻页次数:
1、选择循环流程
2、在设置栏目内输入要翻页的次数
特别说明:
八爪鱼在导出数据时,支持数据去重。如果不介意采集过程中有重复数据,也可不调整流程逻辑。
作者:Y