菜单

【百度】搜索结果采集

采集场景

在百度首页 https://www.baidu.com/ 输入关键词搜索，采集搜索后得到的搜索结果。

采集字段

标题、网页链接、简介

采集结果

采集结果可导出为Excel，CSV，HTML，数据库等多种格式。导出为Excel示例：

教程说明

八爪鱼版本：V8.5.2

如果因网页改版造成网址或步骤无效，无法采集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一、打开网页

步骤二、批量输入多个关键词并搜索

步骤三、创建【循环翻页】，采集多页数据

步骤四、创建【循环列表】，采集所有搜索结果中的数据

步骤五、编辑字段，修改字段的Xpath

步骤六、启动采集

以下为具体步骤：

步骤一、打开网页

在首页【输入框】中输入目标网址 https://www.baidu.com/，点击【开始采集】，八爪鱼自动打开网页。

特别说明：

a. 打开网页后，如果开始开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动识别】教程

步骤二、批量输入多个关键词并搜索

通过以下几步，实现批量输入多个关键词。

1、先输入一个关键词并搜索

2、批量输入多个关键词

1、先输入一个关键词并搜索

选中百度搜索框，在操作提示框中，点击【输入文本】，输入关键词并保存。

选中【百度一下】按钮，在操作提示框中，点击【点击该按钮】，出现关键词的搜索结果列表页。

特别说明：

a.如果选中了输入框，但是操作提示框没有【输入文本】这个选项，则很有可能是选中输入框的范围不对，选择时可尝试不同大小的范围。

2、批量输入多个关键词

经过第一步，实现输入一个关键词并搜索。

如需批量输入多个关键词，需按如下步骤操作：

① 在【打开网页】步骤后，添加一个【循环】。

② 将【输入文本】和【点击元素】都拖入【循环】中。

③ 进入【循环】设置页面。选择循环方式为【文本列表】，点击按钮，将我们准备好的关键字输进去（可同时输入多个关键字，一行一个即可）后保存。

④ 进入【输入文本】设置页面，勾选【使用当前循环里的文本来填充输入框】，勾选【执行前等待】，时间选择2s，设置好之后保存。

⑤ 进入【点击元素】设置页面，勾选【执行前等待】，时间选择3s（推荐设置3-5s）；【Ajax超时】，时间选择10s（推荐设置5-10s），设置好之后保存。

特别说明：

a. 示例中输入的关键词是【八爪鱼采集器】和【云听CEM】，可根据自身需求进行替换。

b.一次最多输入2W个关键字。可先准备一个包含多个关键字的文档，然后将其复制粘贴进八爪鱼中。

c. 执行前等待，即在执行此步骤前等待一段时间，可有效避免因网页未加载完全导致的漏数据，详情点击查看执行前等待使用场景与设置方法

d. 使用了Ajax技术的网页，一般不勾选【在新标签中打开】。【Ajax超时】请根据采集需求和网页加载情况进行设置，并非是一成不变的，详情点击查看 Ajax教程。

步骤三、创建【循环翻页】，采集多页数据

1、建立【循环翻页】

如果只是采集一页数据，可跳过此步骤。

如果需要翻页以采集多页数据：选择页面中的【下一页>】按钮，在操作提示上单击【循环点击下一页】，创建【循环翻页】。

进入【点击翻页】设置页面，勾选【执行前等待】，时间选择5s；【Ajax超时】，时间选择10s，设置好之后保存。

特别说明：

a. 创建【循环翻页】后，八爪鱼会自动点击【下一页】按钮进行翻页，从第1页，第2页......直到最后1页。如果只需采集特定页的数据，可在八爪鱼中设置循环翻页的次数，详情点击查看翻页以采集多页数据教程。

b. 执行前等待，即在执行此步骤前等待一段时间，可有效避免因网页未加载完全导致的漏数据，详情点击查看执行前等待使用场景与设置方法

2、修改【循环翻页】的XPath

默认的【循环翻页】XPath会在第二页，重复翻页至第一页，导致不断重复采集第一页的数据，需修改【循环翻页】XPath。

进入【循环翻页】设置页面，修改XPath为：//A[@class="n"][contains(text(),'下一页')] 。

特别说明：

a.为什么要修改【循环翻页】的XPath？这是因为，当翻到第2页的时候，软件自动生成的Xpath（//A[@class="n"]）定位到的是【<上一页】按钮。那么，八爪鱼采集器在执行的时候，会点击【<上一页】按钮，回到第一页，然后又点击【下一页>】按钮翻到第2页，造成的现象就是会重复采集第一页和第二页的数据。这么修改XPath，需要一定的XPath知识，点击查看 XPath学习与实例教程。

步骤四、创建【循环列表】，采集所有搜索结果中的数据

1、创建【循环列表】

①、选中页面上1条不是广告的搜索结果（注意一定要选中一条搜索结果的整个列表，包含所有所需字段）

②、继续选中页面上另1条不是广告的搜索结果

③、在操作提示框中，点击【采集以下元素文本】

经过以上操作后，整块列表作为一个字段提取下来。

特别说明：

a. 经过以上连续4步，【循环-提取数据】创建完成。【循环】中的项，对应着页面上所有评价列表，【提取数据】中的字段，对应着每个评价列表中的字段。启动采集以后，八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。

b. 为何通过以上4步，可建立【循环-提取数据】？详情点击查看列表数据采集教程。

2、提取字段

以上将整块列表作为一个字段提取。我们可以手动将标题、网页链接、简介字段单独提取出来。

先找到当前搜索结果列表（流程中当前步骤为【提取列表数据】时，当前项在网页上以红色框框起来），然后：

【标题】：选中标题，在操作提示框中点击【采集该链接的文本】。

【简介】：选中简介，在操作提示框中点击【采集该链接文本】。

【网页链接】：选中标题，在操作提示框中点击【采集该链接地址】。

特别说明：

a. 一定要在当前搜索结果列表中提取字段，否则字段提取无法与【循环列表】产生联动，会重复采集某一条列表中的字段。

b. 当网页层级在A标签时，操作提示框中才会有采集链接的提示。如果不在A标签层级，可以通过点击操作提示框右下角的扩大选项按钮 来调整选中的层级，但调整范围也是仅限于红框区域内，不可超出这个红框。

步骤五、编辑字段，修改字段的XPath

1、编辑字段

进入【提取列表数据】设置页面，可删除多余字段，修改字段名，移动字段顺序等。

2、修改字段XPath

为了精准采集到所有搜索结果中的字段，需修改字段的定位XPath。

进入【提取列表数据】设置页面，将【简介】字段的XPath修改为：//div[contains(@class,'c-span9')],备用元素选择【相对xpath】://div[@class="c-gap-top-small"]然后点击【应用】。

特别说明：

a. 在【提取列表数据】步骤里面的【简介】字段。在采集时发现有问题，有字段错位的现象存在，即采集的内容不是【简介】的内容，这是由于字段的XPath定位不准确的缘故，需修改其定位XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程。

步骤六、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

特别说明：

a.【本地采集】是使用自己的电脑进行采集，【云采集】是使用八爪鱼提供的云服务器采集，点击查看本地采集与云采集详解。

2、采集完成后，选择合适的导出方式来导出数据。支持导出为Excel，CSV，HTML，数据库等。这里导出为Excel。数据示例：

上一个

生活服务

下一个

【百度图片】采集与导出

最近修改: 2023-10-27

大纲