百度新闻采集
2018-01-11 11:28:41 阅读量: 21644
本文介绍使用八爪鱼采集百度新闻的方法,百度新闻是百度公司推出的中文新闻搜索平台,每天发布多条新闻,算是一个比较全的新闻获取方式了。
采集网站:
http://news.baidu.com/n?cmd=4&class=stock&pn=1
采集的内容包括:新闻标题,媒体,正文
使用功能点:
l 列表及详细信息采集
/tutorialdetail-1/fylbxq7.html
l 列表循环
l Xath修改
步骤1:创建百度新闻采集任务
1)进入主界面,选择“自定义采集”
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
步骤2:创建列表循环
1)打开网页之后,鼠标选中第一个新闻列表的标题,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”
2)接着选择“采集以下链接文本”
然后选择“点击该链接”。
步骤3:提取百度新闻详细信息
1)进入列表详情页面,鼠标选中文章内容第一段,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”,
之后选择“采集以下元素文本”
2)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。
3)选中提取数据的步骤,鼠标点击“自定义数据字段”
然后选择“自定义数据合并方式”,勾选第二个选项,同一字段合并为同一行
步骤4:修改Xpath
1)选中整个“循环步骤”,打开“高级选项”,可以看到,八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章,所以需要修改
2)在火狐浏览器中打开要采集的网页并观察源码。观察网页源码,修改此条Xpath为:“//p”, 将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”。
步骤5:百度新闻数据采集及导出
1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”
2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出,一份完好的百度新闻内容数据就导出好了,这里我们选择excel作为导出为格式,数据导出后如下图。