本文介绍使用八爪鱼采集百度搜索结果的方法

采集网站:https://www.baidu.com/ 

使用功能点:

分页列表信息采集

AJAX点击和翻页

Xpath


百度:百度作为全球最大的中文搜索引擎公司,百度一直致力于让网民更平等的获取信息,找到所求。百度是用户获取信息的最主要入口,随着移动互联网的发展,百度网页搜索完成了由PC向移动的转型,由连接人与信息扩展到连接人与服务,用户可以在PC、Pad、手机上访问百度主页,通过文字、语音、图像多种交互方式瞬间找到所需要的信息和服务。

 

百度搜索结果采集数据说明:本文进行了百度搜索结果页信息的采集。本文仅以“百度搜索结果页信息采集”为例,大家在实操过程中,可根据自身需求,更换百度的其他内容进行数据采集。

 

百度搜索结果采集详细说明:网页标题,网页链接,网页描述信息。

 

 

步骤1:创建采集任务

1)进入主界面,选择“自定义模式”

1

 

2)要采集的网址制粘贴到网站输入框中,点击“保存网址

2

 

步骤2:输入文本

1)在页面右上角,打开“流程”,以展现出“流程设计器”“定制当前操作”两个板块。点击搜索框,在操作提示框中,选择“输入文字”

3

 

2)输入要采集的文本,这里以输入“八爪鱼采集器”为例。完成后,点击“确定”

4

 

3)输入的文本自动填充到搜索框后,点击“百度一下”按钮。在操作提示框中,选择“点击该按钮”

5

 

此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”

6

 

步骤3:创建翻页循环

1)将页面下拉到底部,点击“下一页”按钮,在右侧操作提示框中,选择“循环点击下一页”,以建立一个翻页循环

7

 

此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。完成后,点击“确定”

8

 

2)选中“循环翻页”步骤,打开“高级选项”,将单个元素中的这条Xpath://A[@class='n',复制粘贴到火狐浏览器中的相应位置

9

 

3)可以看到,当在第1页的时候,使用此条Xpath,可以定位到“下一页”,可正常翻页

10

 

4)当翻到第2页的时候,使用此条Xpath,既可定位到“上一页”又可定位到“下一页”。那么,八爪鱼采集器在执行的时候,无法正常点击到“下一页”

11

 

5)返回八爪鱼采集器,点击“自定义”

12

 

6)勾选“元素文本=下一页>”,对应生成的Xpath为://A[text()='下一页>']。完成后,点击“确定”

13

 

7)将修改后的Xpath://A[text()='下一页>'],再次复制粘贴到火狐浏览器中。可以看到,当翻到第2页的时候,可正常定位到“下一页”第3、4、5、6等也可正常定位到“下一页”,翻页循环可正常运行

14

 

步骤4:创列表循环并提取数据

1)移动鼠标选中页面里第一条搜索结果的区块,再选中页面内另一条搜索结果的区块。系统会自动识别并选中,页面里其他搜索结果的区块,以建立一个列表循环。在操作提示框中,选择“采集以下元素文本”。整个区块里的信息,作为一个字段,被采集下来

15

 

2)选中“循环”步骤,打开“高级选项”,将不固定元素列表中的这条Xpath://DIV[@id='content_left']/DIV复制粘贴到火狐浏览器中的相应位置

16

 

3)将八爪鱼中的Xpath,复制到火狐浏览器中的相应位置。观察页面,我们不需要采集的“相关搜索”和“广告”内容也被定位了

17

 

4)观察网页源码,我们要采集的区块,具有相同的tpl属性,tpl="se_com_default"(如图红框中所示),通过tpl属性,可将要采集的区块与不需要采集的广告、推荐内容区分开来。

将Xpath修改为://DIV[@id='content_left']/DIV[@tpl="se_com_default"]。再观察页面,要采集的内容都被定位了,不需要采集的广告、推荐内容未被定位

18

 

5)将修改后的Xpath://DIV[@id='content_left']/DIV[@tpl="se_com_default"],复制粘贴到八爪鱼采集器的相应位置。完成后,点击“确定”

19

 

6)在这里,我们还想采集每条搜索结果的链接URL。选中页面内一条搜索结果的链接,在操作提示框中,选择“采集该链接地址”

20

 

7)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后,点击左上角的“保存并启动”,选择“启动本地采集”

21

 

步骤5:数据采集及导出

1)采集完成后,会跳出提示,选择导出数据”。选择合适的导出方式,将采集好的数据导出

22

 

2)这里我们选择excel作为导出为格式,数据导出后如下图

23