本文介绍使用八爪鱼采集QQ说说的方法


采集网站:

https://pocket.qzone.qq.com/

 

本文仅以上面这个QQ空间URL举例说明,大家如果有其他采集其他QQ空间的需求,可以更换QQ空间URL进行采集。

 

采集的内容包括:QQ说说

 

使用功能点:

l Cookie登录

l Ajax点击

l 修改Xpath

 

步骤1:创建qq说说采集任务

1)进入主界面,选择自定义采集

 

qq说说采集步骤1

 

2)要采集的qq空间网站URL制粘贴到输入框中,点击保存网址

 

 

qq说说采集步骤2

 

 

步骤2:QQ空间Cookie登录

1)打开网页后,需要先登录,可以先在手机登录QQ, 采集时点击登录按钮,之后扫码就可以成功登录。

 

qq说说采集步骤3

 

 

3)登陆后,在高级选项中选择自定义cookie,勾选打开网页时使用固定cookie,再点击获取当前页面cookie,最后点击“确定”,这样以后再采集时就不用重复登录QQ了。(cookie有效时间以具体情况为准)

 

qq说说采集步骤4

 

 

步骤3:提取qq说说数据

1)成功登录以后,可以把空间主页打开,鼠标选中“说说”,提示框中选择“点击该链接

 

qq说说采集步骤5

 

 

 

2此步骤涉及Ajax技术。需要设置Ajax加载,打开高级选项”,勾选“Ajax加载数据”,设置时间为“3”。因为说说页面打开后需要向下滑动才可以出现更多内容,所以还需要设置页面滚动,滚动次数选择3次,每次间隔3秒,完成后,点击确定

 

 

qq说说采集步骤6

 

 

3)鼠标滑动到页底,然后选中“下一页”,提示框中选择“循环点击下一页

 

qq说说采集步骤7

 

 

鼠标选中第一条“说说”,提示框中“选中全部

 

qq说说采集步骤8

 

接着选择采集以下元素文本

 

qq说说采集步骤9

 

 

4)同上,点击翻页这一步需要设置ajax,  鼠标选中点击翻页,设置Ajax点击加载和页面滚动, 如果这一步的规则流程出错   需要手动调整一下   调整到整个规则的最后

 

qq说说采集步骤10

 

 

步骤4:修改Xpath

1)手动执行规则,发现循环列表里并没有定位到所有元素,所以需要修改xpath,到火狐中查看源码可以发现,网页涉及到IFRAME,在高级选项中勾选元素在IFRAME,并填入相对应的xpath“//IFRAME[@id='app_canvas_frame']”。

 

 

qq说说采集步骤11

 

2)同上,循环的步骤也需要设置xpath,选中循环步骤,在高级选项中勾选元素在IFRAME,并填入相对应的xpath”//iframe[@id='app_canvas_frame'],

 

 

 

qq说说采集步骤12

 

3)采集数据时候可以发现出现到最后一页的时候一直重复在采集,这个时候需要回到规则流程中调整翻页循环的xpath,如下图,单个元素的xpath修改为“//a[@class='c_tx']/SPAN[text()='下一页']”

 

 

qq说说采集步骤13

 

 

步骤5:qq说说数据采集及导出

 

设置完成之后选择保存开始采集,然后启动本地采集

 

qq说说采集步骤14

 

 

采集完成后,会跳出提示,选择导出数据选择合适的导出方式,将采集好的数据导出这里我们选择excel作为导出为格式,一份完好的QQ说说数据就导出来了,数据导出后如下图

 

 

qq说说采集步骤15