百度贴吧内容采集
2018-01-19 11:07:10 阅读量: 17224
本文介绍使用八爪鱼采集百度贴吧帖子内容的方法。
在这里仅仅以其中一个帖子举例说明:
http://tieba.baidu.com/p/5492396988
旅行贴吧的某个帖子(【集中贴】2018年1、2月出发寻同行的请进来登记
)
采集内容包括:贴吧帖子内容,贴吧用户昵称
使用功能点:
l 创建循环翻页
l 修改Xpath
步骤1:创建百度贴吧帖子内容采集任务
1)进入主界面,选择“自定义采集”
2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
步骤2:创建循环翻页
1)网页打开以后,鼠标下拉到最底部,选择下一页,提示框中选择“循环点击下一页”
2)鼠标选中帖子的回复,在右面的提示框中选择“选中全部”
2)如果要采集贴吧的其他信息,也可以选择,这里选择的是贴吧昵称,贴吧昵称。
接着选择“采集数据”,把不必要的字段删除。
步骤3:修改XPATH
1)保存采集后发现有些帖子内容没有正确采集,所以需要修改XPATH,打开右上角的流程按钮
2)点击循环选项,“循环方式”选择“不固定元素列表”,“不固定元素列表”填入XPATH://div[@class="l_post j_l_post l_post_bright "]。
2) 点击“提取数据”,修改贴吧帖子内容XPATH。选中帖子内容字段,依次点击“自定义数据字段”->“自定义元素定位方式”,并设置:
元素匹配的XPATH:
//div[@class="l_post j_l_post l_post_bright "]//div[@class="d_post_content j_d_post_content clearfix"]
相对XPATH:
//div[@class="d_post_content j_d_post_content clearfix"]
选中帖子内容字段
自定义数据字段位置
帖子内容字段数据提取xpath设置
3) 修改贴吧用户昵称XPATH。选中贴吧用户昵称字段,依次点击“自定义数据字段”->“自定义元素定位方式”,并设置:
元素匹配的XPATH:
//div[@class="l_post j_l_post l_post_bright "]//li[@class="d_name"]/a
相对XPATH:
//li[@class="d_name"]/a
选中贴吧用户昵称字段
步骤5:百度贴吧帖子内容数据采集及导出
1)打开流程按钮,修改采集字段名称,点击“保存并开始采集”
启动本地采集
集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出,这里我们选择excel作为导出为格式,一份完好的百度贴吧帖子内容就采集好了,数据导出后如下图