八爪鱼,百万用户信赖的网络爬虫工具

图片翻页按钮采集的几个常用处理方法

作者:xinyue 发布时间:9/12/2014 5:56:52 PM 14457 人已阅读

摘要:八爪鱼采集器中,翻页循环是用的非常多的一个操作,视频课程内也分析了一般翻页处理还有文本等特殊翻页处理办法,本文则来介绍下,另一种更为特殊的翻页规则如何来制定。

八爪鱼采集器中有关采集工作流程的设计中,有一个会经常被用到的流程,就是翻页循环,在网站上的视频教程中,已经有提到过,遇到一般的翻页及特殊翻页要如何进行设置,视频中指的特殊翻页,是指下一页为文本形式或者“>”形式的处理,想了解的小伙伴们可以自行前去观看视频教程,教程内已经讲解的十分详细了。翻页视频介绍特殊翻页视频介绍

 

      本文中要介绍的特殊翻页,是视频中未曾提到的,翻页按钮为图片形式时,我们要如何进行应对。下面就来讲解一个实际的案例,我们以CFDA药监局的网站为例,直观的介绍下图片翻页的办法。

 

       我们直接来看看,遇到图片翻页按钮时,常规的设置将不起作用,识别不到下一页,【点击元素】也无法点击到【下一页】的按钮。效果如下图所示,从弹出的对话框我们可以很明显的看出下一页是个图片(IMG),并且第1页和后面几页的【下一页】及【GO】的位置均不同。

 图片翻页 副本

 

      那么,常规的翻页设置行不通的前提下,我们不妨用其他的方法来进行设置。

 

办法一:循环点击图片

 

原理很简单,既然系统识别不了【下一页】,那我们只需要让系统能循环点击这个图片,就一样能实现翻页的效果。

1、  以图片IMG建立单一循环列表,将循环框内的【提取数据】删除,拖入【点击元素】,如下图所示

 图片翻页步骤1 副本

2、  修改XPATH,准确定位【下一页】的图片,有关XPATH如何写具体可以百度搜索或者使用八爪鱼采集软件内置XPATH工具,也可以用FIREFOX的FIREBUG工具来进行辅助查找。有关XPATH的详细课程八爪鱼将在接下来的课程中详细解读,在此不赘述。我们来看看修改前后的XPATH对比。

图片翻页步骤4 副本

3、  设置循环次数,我们可以按照页数来设置循环次数,帮助机器判断循环到多少次就到头了。设置好后记得保存。

4、  设置【点击元素】的AJAX加载设置,1秒2秒均可,并选中【点击当前循环中设置的元素】,设置完成后保存。

图片翻页步骤5 副本

5、  手工检测下,是否有正常翻页,很多小伙伴不太会在流程框内直接检查,其实很简单,人工模拟软件执行的动作即可,点击循环框,再点击【点击元素】,查看软件浏览器内页数是否跳转到第2页。

 

办法二:循环输入页码方式实现翻页

 

循环输入页码也是一种翻页方式,普通的翻页也可以运用到这种方法,循环输入页面的方式对云采集十分便利,方便按页面拆分采集任务,学会的话,用处很大。

操作步骤也十分的简单,首先,在浏览器内的输入框内点击一下,弹出对话框,选择【输入文本】,在流程框内拖入【循环】操作,将【输入文本】拖入到循环框内,选中循环框,设置循环的文本列表,把页数复制到文本列表内,点击保存。再选中输入文本,勾选【使用当前循环的文本来填充输入框】。

 方法2 1 副本

 

最后,对于本案例中的【GO】依然为图片,所以要修改下XPATH,如下图所示。

 方法2 3 副本

 

图片翻页的2个办法都介绍完了,有关的实际案例规则可以前往八爪鱼采集器内规则市场进行下载。

 

 

 


欢迎咨询在线客服
加微信群,与更多用户一起交流