请输入
菜单

点击【加载更多】或【再显示20条】等按钮翻页

有的网页没有下一页按钮,但是有【加载更多】或【再显示20条】等按钮,通过不断点击这些按钮,可以实现翻页,加载出新数据。

果壳网 百度贴吧官网 等页面都是这种情况。

 

针对这类网页,使用智能识别和自行配置的采集规则,都能实现翻页,具体设置方法如下:

 

 

一、智能识别实现【点击加载更多翻页】

示例网址如:果壳网

 

 

八爪鱼的智能识别,支持【加载更多内容】这种翻页的智能识别,如下图所示:

 

在 新手入门第8课:采集原理与流程执行逻辑 中,我们讲过,流程的执行逻辑是先从上至下、再由内而外。那上图中的流程的执行逻辑是:先打开网页,然后不断点击【加载更多内容】进行翻页,翻页全部完成以后,再提取所有列表数据。

 

这里有一个问题,如果网页【加载更多内容】这个按钮是可以无限点击的,那八爪鱼就会一直点击它,容易导致程序崩溃,采集不到数据。因此,我们可以设置一定的点击次数,让八爪鱼执行设置的翻页次数后,就开始采集数据。建议点击次数不超过500次,具体可根据网页情况和采集需求来。

 

在部分网站,在点击5次【加载更多内容】后就到底了,不再出现新内容了,因此,我们可以将它的翻页次数设为5,设置方法如下图所示:

 

 

启动本地采集,来看一下采集结果:八爪鱼先点击了5次【加载更多内容】,到达底部,此时页面中有100个文章列表。随后,八爪鱼将这100个文章列表的数据都采集下来了。

 

 

二、配置采集流程实现【点击加载更多翻页】

如果不用智能识别 ,可自己配置采集流程。

按照 采集列表数据 中的方法,配置一个【循环列表】。

再依次点击提示里的【加载更多按钮】,点击网页内的【加载更多】

 这样在右边就会建立起采集规则

 

同样的,我们根据网页情况,设置合适的翻页次数:

1、选择循环流程

2、在设置栏目内输入要翻页的次数

 

 

 

特别说明:

八爪鱼在导出数据时,支持数据去重。如果不介意采集过程中有重复数据,也可不调整流程逻辑。

 

作者:Y

 

上一个
特殊翻页
下一个
无【下一页】按钮,点击数字进行翻页
最近修改: 2024-02-02