图片翻页按钮采集的几个常用处理方法
八爪鱼采集器中有关采集工作流程的设计中,有一个会经常被用到的流程,就是翻页循环,在网站上的视频教程中,已经有提到过,遇到一般的翻页及特殊翻页要如何进行设置,视频中指的特殊翻页,是指下一页为文本形式或者“>”形式的处理,想了解的小伙伴们可以自行前去观看视频教程,教程内已经讲解的十分详细了。翻页视频介绍,特殊翻页视频介绍
本文中要介绍的特殊翻页,是视频中未曾提到的,翻页按钮为图片形式时,我们要如何进行应对。下面就来讲解一个实际的案例,我们以CFDA药监局的网站为例,直观的介绍下图片翻页的办法。
我们直接来看看,遇到图片翻页按钮时,常规的设置将不起作用,识别不到下一页,【点击元素】也无法点击到【下一页】的按钮。效果如下图所示,从弹出的对话框我们可以很明显的看出下一页是个图片(IMG),并且第1页和后面几页的【下一页】及【GO】的位置均不同。
那么,常规的翻页设置行不通的前提下,我们不妨用其他的方法来进行设置。
办法一:循环点击图片
原理很简单,既然系统识别不了【下一页】,那我们只需要让系统能循环点击这个图片,就一样能实现翻页的效果。
1、 以图片IMG建立单一循环列表,将循环框内的【提取数据】删除,拖入【点击元素】,如下图所示
2、 修改XPATH,准确定位【下一页】的图片,有关XPATH如何写具体可以百度搜索或者使用八爪鱼采集软件内置XPATH工具,也可以用FIREFOX的FIREBUG工具来进行辅助查找。有关XPATH的详细课程八爪鱼将在接下来的课程中详细解读,在此不赘述。我们来看看修改前后的XPATH对比。
3、 设置循环次数,我们可以按照页数来设置循环次数,帮助机器判断循环到多少次就到头了。设置好后记得保存。
4、 设置【点击元素】的AJAX加载设置,1秒2秒均可,并选中【点击当前循环中设置的元素】,设置完成后保存。
5、 手工检测下,是否有正常翻页,很多小伙伴不太会在流程框内直接检查,其实很简单,人工模拟软件执行的动作即可,点击循环框,再点击【点击元素】,查看软件浏览器内页数是否跳转到第2页。
办法二:循环输入页码方式实现翻页
循环输入页码也是一种翻页方式,普通的翻页也可以运用到这种方法,循环输入页面的方式对云采集十分便利,方便按页面拆分采集任务,学会的话,用处很大。
操作步骤也十分的简单,首先,在浏览器内的输入框内点击一下,弹出对话框,选择【输入文本】,在流程框内拖入【循环】操作,将【输入文本】拖入到循环框内,选中循环框,设置循环的文本列表,把页数复制到文本列表内,点击保存。再选中输入文本,勾选【使用当前循环的文本来填充输入框】。
最后,对于本案例中的【GO】依然为图片,所以要修改下XPATH,如下图所示。
图片翻页的2个办法都介绍完了,有关的实际案例规则可以前往八爪鱼采集器内规则市场进行下载。
服务提示