淘宝评论采集
2015-06-29 16:32:09 阅读量: 0
有很多用户需要采集淘宝里面商品用户的评论信息,但是不知道怎么样去采集。文本将教大家用八爪鱼采集器如果快捷高效的采集这些信息。
备注:本文使用的是6版本八爪鱼采集器,如果你们使用的是7版本的,可以参考淘宝评价采集(八爪鱼7版本)
打开链接之后,需要采集此链接里面商品的累计评论。
首先我们打开八爪鱼,新建一个任务,添加一个打开网页的步骤到流程设计器中,填写页面URL,点击保存,打开对应的网页。
由于这个网页是瀑布流形式的,需要加载累积评论才能进行下一步的设置,这里我们设置一下图中所示位置,滚动到加载累积评论即可。
然后点击页面的中累积评论,在弹出的页面中选择点击这个元素
注意这里,由于这个网页设置点击元素之后会有ajax加载,这里我们按照下图设置即可
上述操作做好之后,页面将会跳转到用户评论页面,如下图:
接下来我们创建一个翻页循环,点击页面中的下一页在弹出的对话框中选择循环点击下一页。
设置好之后流程配置为下图:
翻页循环创建好之后,由于这里也涉及到了ajax加载,我们同样按照下图设置一下即可
然后我们对用户的评论再做一个循环列表,首先点击第一条评论,弹出页面选择框之后,再看下图虚线框是否包含到了关于第一条评论的整个内容项,如果没有包含则选择上方的选项,知道包含了整个评论的内容项为止,再选择图中的创建一个元素列表以处理一组元素
上述选择之后,再弹出的页面需要添加到列表
添加到列表之后选择继续编辑列表,然后同样的方式选择第二条评论进行添加
注意添加第二次的时候,系统自动会把页面上的所有元素添加进来,这时选择创建列表完成,在选择循环。
注意这个时候需要把评论的循环列表手动拖入到翻页的列表里面去。
下图是拖入之后的流程:
这个时候再做最后一步提取数据字段的操作,选择需要抓取的字段然后在弹出的页面选择抓取这个元素的文本;
上述操作之后页面的右上方会显示抓取的字段:
再以同样的方式我们抓取其他需要采集的字段并添加好之后命名字段名称
然后再选择下一步-下一步,选择启动单机采集(调试模式),以确保任务的正确性
在弹出的页面中,选择开始单机采集:
下图中数据则被顺利提取出来了