qq说说采集

2018-01-10 11:40:19 阅读量： 21771

本文介绍使用八爪鱼采集QQ说说的方法。

采集网站：

https://pocket.qzone.qq.com/

本文仅以上面这个QQ空间URL举例说明，大家如果有其他采集其他QQ空间的需求，可以更换QQ空间URL进行采集。

采集的内容包括：QQ说说

使用功能点：

l Cookie登录

l Ajax点击

l 修改Xpath

步骤1：创建qq说说采集任务

1）进入主界面，选择“自定义采集”

qq说说采集步骤1

2）将要采集的qq空间网站URL复制粘贴到输入框中，点击“保存网址”

qq说说采集步骤2

步骤2：QQ空间Cookie登录

1)打开网页后，需要先登录，可以先在手机登录QQ, 采集时点击登录按钮，之后扫码就可以成功登录。

qq说说采集步骤3

3）登陆后，在高级选项中选择自定义cookie，勾选打开网页时使用固定cookie，再点击获取当前页面cookie，最后点击“确定”，这样以后再采集时就不用重复登录QQ了。（cookie有效时间以具体情况为准）

qq说说采集步骤4

步骤3：提取qq说说数据

1）成功登录以后，可以把空间主页打开，鼠标选中“说说”，提示框中选择“点击该链接”

qq说说采集步骤5

2）此步骤涉及Ajax技术。需要设置Ajax加载，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“3秒”。因为说说页面打开后需要向下滑动才可以出现更多内容，所以还需要设置页面滚动，滚动次数选择3次，每次间隔3秒，完成后，点击“确定”。

qq说说采集步骤6

3)鼠标滑动到页底，然后选中“下一页”，提示框中选择“循环点击下一页”

qq说说采集步骤7

鼠标选中第一条“说说”，提示框中“选中全部”

qq说说采集步骤8

接着选择“采集以下元素文本”

qq说说采集步骤9

4)同上，点击翻页这一步需要设置ajax, 鼠标选中点击翻页，设置Ajax点击加载和页面滚动, 如果这一步的规则流程出错需要手动调整一下调整到整个规则的最后

qq说说采集步骤10

步骤4：修改Xpath

1）手动执行规则，发现循环列表里并没有定位到所有元素，所以需要修改xpath，到火狐中查看源码可以发现，网页涉及到IFRAME，在高级选项中勾选元素在IFRAME，并填入相对应的xpath“//IFRAME[@id='app_canvas_frame']”。

qq说说采集步骤11

2）同上，循环的步骤也需要设置xpath，选中循环步骤，在高级选项中勾选元素在IFRAME，并填入相对应的xpath”//iframe[@id='app_canvas_frame'],

qq说说采集步骤12

3）采集数据时候可以发现出现到最后一页的时候一直重复在采集，这个时候需要回到规则流程中调整翻页循环的xpath，如下图，单个元素的xpath修改为“//a[@class='c_tx']/SPAN[text()='下一页']”

qq说说采集步骤13

步骤5：qq说说数据采集及导出

设置完成之后选择保存并开始采集，然后启动本地采集，

qq说说采集步骤14

采集完成后，会跳出提示，选择“导出数据”选择“合适的导出方式”，将采集好的数据导出这里我们选择excel作为导出为格式，一份完好的QQ说说数据就导出来了，数据导出后如下图

qq说说采集步骤15

实战教程