本文介绍使用八爪鱼采集百度贴吧帖子内容的方法

 

在这里仅仅以其中一个帖子举例说明:

http://tieba.baidu.com/p/5492396988

旅行贴吧的某个帖子(【集中贴】2018年1、2月出发寻同行的请进来登记

采集内容包括:贴吧帖子内容,贴吧用户昵称

 

使用功能点:

 

l 创建循环翻页

l 修改Xpath

 

步骤1:创建百度贴吧帖子内容采集任务

1)进入主界面,选择自定义采集

 

 

2)要采集网站URL制粘贴到输入框中,点击保存网址

 

 

 

 

 

步骤2:创建循环翻页

1)网页打开以后,鼠标下拉到最底部,选择下一页,提示框中选择“循环点击下一页

 

 

 

2)鼠标选中帖子的回复,在右面的提示框中选择“选中全部

 

2)如果要采集贴吧的其他信息,也可以选择,这里选择的是贴吧昵称,贴吧昵称。

 

 

 

接着选择采集数据”,把不必要的字段删除。

 

 

 

步骤3:修改XPATH

 

1)保存采集后发现有些帖子内容没有正确采集,所以需要修改XPATH,打开右上角的流程按钮

 

 

 

2)点击循环选项,“循环方式”选择“不固定元素列表”,“不固定元素列表”填入XPATH://div[@class="l_post j_l_post l_post_bright  "]。

 

 

 

 

 

2) 点击“提取数据”,修改贴吧帖子内容XPATH。选中帖子内容字段,依次点击“自定义数据字段”->“自定义元素定位方式”,并设置:

 

元素匹配的XPATH:

//div[@class="l_post j_l_post l_post_bright  "]//div[@class="d_post_content j_d_post_content  clearfix"]


相对XPATH:

//div[@class="d_post_content j_d_post_content  clearfix"]

 

选中帖子内容字段

 

自定义数据字段位置

 

 

帖子内容字段数据提取xpath设置

 

 

3) 修改贴吧用户昵称XPATH。选中贴吧用户昵称字段,依次点击“自定义数据字段”->“自定义元素定位方式”,并设置:

 

元素匹配的XPATH:

//div[@class="l_post j_l_post l_post_bright  "]//li[@class="d_name"]/a


相对XPATH:

//li[@class="d_name"]/a

 

选中贴吧用户昵称字段

 

 

 

步骤5:百度贴吧帖子内容数据采集及导出

1)打开流程按钮,修改采集字段名称,点击保存并开始采集

 

 

 

启动本地采集

 

 

 

集完成后,会跳出提示,选择导出数据选择合适的导出方式,将采集好的数据导出,这里我们选择excel作为导出为格式,一份完好的百度贴吧帖子内容就采集好了,数据导出后如下图