采集场景
在百度首页 https://www.baidu.com/ 输入关键词搜索,采集搜索后得到的搜索结果。
采集字段
标题、网页链接、简介
采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:
教程说明
八爪鱼版本:V8.5.2
如果因网页改版造成网址或步骤无效,无法采集到目标数据,请联系官方客服,我们将及时修正。
采集步骤
步骤一、打开网页
步骤二、批量输入多个关键词并搜索
步骤三、创建【循环翻页】,采集多页数据
步骤四、创建【循环列表】,采集所有搜索结果中的数据
步骤五、编辑字段,修改字段的Xpath
步骤六、启动采集
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 https://www.baidu.com/,点击【开始采集】,八爪鱼自动打开网页。
特别说明:
a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。
b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程
步骤二、批量输入多个关键词并搜索
通过以下几步,实现批量输入多个关键词。
1、先输入一个关键词并搜索
2、批量输入多个关键词
1、先输入一个关键词并搜索
选中百度搜索框,在操作提示框中,点击【输入文本】,输入关键词并保存。
选中【百度一下】按钮,在操作提示框中,点击【点击该按钮】,出现关键词的搜索结果列表页。
特别说明:
a.如果选中了输入框,但是操作提示框没有【输入文本】这个选项,则很有可能是选中输入框的范围不对,选择时可尝试不同大小的范围。
2、批量输入多个关键词
经过第一步,实现输入一个关键词并搜索。
如需批量输入多个关键词,需按如下步骤操作:
① 在【打开网页】步骤后,添加一个【循环】。
② 将【输入文本】和【点击元素】都拖入【循环】中。
③ 进入【循环】设置页面。选择循环方式为【文本列表】,点击 按钮,将我们准备好的关键字输进去(可同时输入多个关键字,一行一个即可)后保存。
④ 进入【输入文本】设置页面,勾选【使用当前循环里的文本来填充输入框】,勾选【执行前等待】,时间选择2s,设置好之后保存。
⑤ 进入【点击元素】设置页面,勾选【执行前等待】,时间选择3s(推荐设置3-5s);【Ajax超时】,时间选择10s(推荐设置5-10s),设置好之后保存。
特别说明:
a. 示例中输入的关键词是【八爪鱼采集器】和【云听CEM】,可根据自身需求进行替换。
b.一次最多输入2W个关键字。可先准备一个包含多个关键字的文档,然后将其复制粘贴进八爪鱼中。
c. 执行前等待,即在执行此步骤前等待一段时间,可有效避免因网页未加载完全导致的漏数据,详情点击查看 执行前等待使用场景与设置方法
d. 使用了Ajax技术的网页,一般不勾选【在新标签中打开】。【Ajax超时】请根据采集需求和网页加载情况进行设置,并非是一成不变的,详情点击查看 Ajax教程 。
步骤三、创建【循环翻页】,采集多页数据
1、建立【循环翻页】
如果只是采集一页数据,可跳过此步骤。
如果需要翻页以采集多页数据:选择页面中的【下一页>】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。
进入【点击翻页】设置页面,勾选【执行前等待】,时间选择5s;【Ajax超时】,时间选择10s,设置好之后保存。
特别说明:
a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看 翻页以采集多页数据教程。
b. 执行前等待,即在执行此步骤前等待一段时间,可有效避免因网页未加载完全导致的漏数据,详情点击查看 执行前等待使用场景与设置方法
2、修改【循环翻页】的XPath
默认的【循环翻页】XPath会在第二页,重复翻页至第一页,导致不断重复采集第一页的数据,需修改【循环翻页】XPath。
进入【循环翻页】设置页面,修改XPath为://A[@class="n"][contains(text(),'下一页')] 。
特别说明:
a.为什么要修改【循环翻页】的XPath?这是因为,当翻到第2页的时候,软件自动生成的Xpath(//A[@class="n"])定位到的是【<上一页】按钮。那么,八爪鱼采集器在执行的时候,会点击【<上一页】按钮,回到第一页,然后又点击【下一页>】按钮翻到第2页,造成的现象就是会重复采集第一页和第二页的数据。这么修改XPath,需要一定的XPath知识,点击查看 XPath学习与实例教程 。
步骤四、创建【循环列表】,采集所有搜索结果中的数据
1、创建【循环列表】
①、选中页面上1条不是广告的搜索结果(注意一定要选中一条搜索结果的整个列表,包含所有所需字段)
②、继续选中页面上另1条不是广告的搜索结果
③、在操作提示框中,点击【采集以下元素文本】
经过以上操作后,整块列表作为一个字段提取下来。
特别说明:
a. 经过以上连续4步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有评价列表,【提取数据】中的字段,对应着每个评价列表中的字段。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。
b. 为何通过以上4步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 。
2、提取字段
以上将整块列表作为一个字段提取。我们可以手动将标题、网页链接、简介字段单独提取出来。
先找到当前搜索结果列表(流程中当前步骤为【提取列表数据】时,当前项在网页上以红色框框起来),然后:
【标题】:选中标题,在操作提示框中点击【采集该链接的文本】。
【简介】:选中简介,在操作提示框中点击【采集该链接文本】。
【网页链接】:选中标题,在操作提示框中点击【采集该链接地址】。
特别说明:
a. 一定要在当前搜索结果列表中提取字段,否则字段提取无法与【循环列表】产生联动,会重复采集某一条列表中的字段。
b. 当网页层级在A标签时,操作提示框中才会有采集链接的提示。如果不在A标签层级,可以通过点击操作提示框右下角的扩大选项按钮 来调整选中的层级,但调整范围也是仅限于红框区域内,不可超出这个红框。
步骤五、编辑字段,修改字段的XPath
1、编辑字段
进入【提取列表数据】设置页面,可删除多余字段,修改字段名,移动字段顺序等。
2、修改字段XPath
为了精准采集到所有搜索结果中的字段,需修改字段的定位XPath。
进入【提取列表数据】设置页面,将【简介】字段的XPath修改为://div[contains(@class,'c-span9')],备用元素选择【相对xpath】://div[@class="c-gap-top-small"]然后点击【应用】。
特别说明:
a. 在【提取列表数据】步骤里面的【简介】字段。在采集时发现有问题,有字段错位的现象存在,即采集的内容不是【简介】的内容,这是由于字段的XPath定位不准确的缘故,需修改其定位XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。
步骤六、启动采集
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
特别说明:
a.【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看本地采集与云采集详解。
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。数据示例: