百度搜索结果采集
2017-09-01 10:15:28 阅读量: 178936
本文介绍使用八爪鱼采集百度搜索结果的方法
采集网站:https://www.baidu.com/
使用功能点:
百度:百度作为全球最大的中文搜索引擎公司,百度一直致力于让网民更平等的获取信息,找到所求。百度是用户获取信息的最主要入口,随着移动互联网的发展,百度网页搜索完成了由PC向移动的转型,由连接人与信息扩展到连接人与服务,用户可以在PC、Pad、手机上访问百度主页,通过文字、语音、图像多种交互方式瞬间找到所需要的信息和服务。
百度搜索结果采集数据说明:本文进行了百度搜索结果页信息的采集。本文仅以“百度搜索结果页信息采集”为例,大家在实操过程中,可根据自身需求,更换百度的其他内容进行数据采集。
百度搜索结果采集详细说明:网页标题,网页链接,网页描述信息。
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
步骤2:输入文本
1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。点击搜索框,在操作提示框中,选择“输入文字”
2)输入要采集的文本,这里以输入“八爪鱼采集器”为例。完成后,点击“确定”
3)输入的文本自动填充到搜索框后,点击“百度一下”按钮。在操作提示框中,选择“点击该按钮”
此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”
步骤3:创建翻页循环
1)将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”,以建立一个翻页循环
此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”
2)选中“循环翻页”步骤,打开“高级选项”,将单个元素中的这条Xpath://A[@class='n',复制粘贴到火狐浏览器中的相应位置
3)可以看到,当在第1页的时候,使用此条Xpath,可以定位到“下一页”,可正常翻页
4)当翻到第2页的时候,使用此条Xpath,既可定位到“上一页”,又可定位到“下一页”。那么,八爪鱼采集器在执行的时候,无法正常点击到“下一页”
5)返回八爪鱼采集器,点击“自定义”
6)勾选“元素文本=下一页>”,对应生成的Xpath为://A[text()='下一页>']。完成后,点击“确定”
7)将修改后的Xpath://A[text()='下一页>'],再次复制粘贴到火狐浏览器中。可以看到,当翻到第2页的时候,可正常定位到“下一页”,第3、4、5、6等也可正常定位到“下一页”,翻页循环可正常运行
步骤4:创建列表循环并提取数据
1)移动鼠标,选中页面里第一条搜索结果的区块,再选中页面内另一条搜索结果的区块。系统会自动识别并选中,页面里其他搜索结果的区块,以建立一个列表循环。在操作提示框中,选择“采集以下元素文本”。整个区块里的信息,作为一个字段,被采集下来
2)选中“循环”步骤,打开“高级选项”,将不固定元素列表中的这条Xpath://DIV[@id='content_left']/DIV,复制粘贴到火狐浏览器中的相应位置
3)将八爪鱼中的Xpath,复制到火狐浏览器中的相应位置。观察页面,我们不需要采集的“相关搜索”和“广告”内容也被定位了
4)观察网页源码,我们要采集的区块,具有相同的tpl属性,tpl="se_com_default"(如图红框中所示),通过tpl属性,可将要采集的区块与不需要采集的广告、推荐内容区分开来。
将Xpath修改为://DIV[@id='content_left']/DIV[@tpl="se_com_default"]。再观察页面,要采集的内容都被定位了,不需要采集的广告、推荐内容未被定位
5)将修改后的Xpath://DIV[@id='content_left']/DIV[@tpl="se_com_default"],复制粘贴到八爪鱼采集器的相应位置。完成后,点击“确定”
6)在这里,我们还想采集每条搜索结果的链接URL。选中页面内一条搜索结果的链接,在操作提示框中,选择“采集该链接地址”
7)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后,点击左上角的“保存并启动”,选择“启动本地采集”
步骤5:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好的数据导出