有些类型的网页我们需要在列表中采集数据字段,也需要在详情中采集数据字段。对于这样的情况我们可以用以下方法来解决。

文章讲述的任务的入口地址为http://data.eastmoney.com/stockcomment/

我们需要采集每一行的股票代码,也需要采集点评详情里面的相关内容

 

图片1

 首先我们打开八爪鱼,新建一个任务,添加一个打开网页的步骤到流程设计器中,填写页面URL,点击保存,打开对应的网页。

 图片2

这个是表格形式存在的,所以每行创建一个列表循环

图片1

添加第二行的时候系统会默认识别该页面下所有行的内容,然后选择创建列表完成。图片2

注意循环的时候,需要设置xpath确定位置。这个用以指明后续提取的点评详情页面在同一行。xpath为//HTML/BODY[1]/DIV[7]/DIV[1]/DIV[1]/DIV[2]/TABLE[1]/TBODY[1]/TR[position()>=1]

图片3

 

创建列表完成之后,如下图所示选择提取数据

图片4

添加列表页面下需要提取的数据

图片5

然后设置点评详情图片7

 

注意设置点击元素的同时也需要定位这个点评详情的xpath,注意点评详情的xpath是相对于循环的,上面循环列表的xpath是//HTML/BODY[1]/DIV[7]/DIV[1]/DIV[1]/DIV[2]/TABLE[1]/TBODY[1]/TR[position()>=1]    点评详情的xpath本身为//HTML/BODY[1]/DIV[7]/DIV[1]/DIV[1]/DIV[2]/TABLE[1]/TBODY[1]/TR[position()>=1]/td[4]/a[1],但是这里点评详情的xpath是相对于循环的,所以我们把循环的xpath去掉,只取后面的//td[4]/a[1]  如下图所示:

图片8

 

图片9

 设置完之后需要在点击元素的高级设置里面勾上点击当前循环中设置的元素

113

最后再在弹出的页面提取子页面的数据字段即可

 

图片10

最后进行测试,数据则被顺利的提取出来啦!

图片11