第2课:2种采集模式与界面介绍 中,我们已经了解了用八爪鱼采集数据的两种模式:使用【采集模板】和【自定义配置任务】。

 

从本课开始,我们将开始学习用【自定义配置】采集数据的方法。

 

总结一下网页数据采集需求。可以归纳为以下几种。每一种需求,都有对应的课程进行详细讲解。

第3课:采集单个数据(本课)

第4课:采集列表数据

第5课:采集表格数据

第6课:需依次点击多个链接进入详情,采集每个详情页中的数据

第7课:需要翻页采集

 

本课将从最简单的采集单个数据开始。

 

现在有一个京东商品详情页的网页:https://item.jd.com/100004788065.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、超链接。

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,怎么操作?以下为具体步骤。

 

 

示例网址:https://item.jd.com/100004788065.html

 

步骤一 、创建一个新任务,输入网址

 

在首页【输入框】中输入目标网址,点击【开始采集】。点击【保存设置】,八爪鱼中内置的浏览器会自动打开网页。现在的界面是纯浏览器界面。为了方便观察,我们打开右上角的【流程】按钮。

 

 

也可以点击左侧【+ 新建】,选择【自定义任务】,进入网址输入界面。

 

 

特别说明:

a. 【流程】按钮打开状态为   ,此时才会出现规则编辑界面。此时软件页面由3大区块组成:采集流程、流程中当前步骤的详细页面、内置谷歌浏览器。

 

 

b. 如何获得目标网址(也叫url)?输入网址是进行数据数据采集的第1步。因此,一定要确定你要的数据在哪个网页上有,网址是什么,找到网址并将其复制下来。

 

步骤二、选择要采集的数据

 

观察网页。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、超链接。

鼠标移动到想要的字段上,点击将其选中。选中后,会用绿色框框起来。同时,八爪鱼会弹出1个操作提示框。选中的字段不同,操作提示框中的指令也不同,根据具体情况和需求来。

如果选中的是文本,选择【采集该元素的文本】。

如果选中的是图片,选择【采集该图片地址】。

如果选中的是链接,选择【采集该链接的文本】或【采集该链接地址】。

 

 

步骤三、编辑字段

现在,八爪鱼知道你要提取哪些字段了。可以进行字段编辑:删除不需要的字段,字段上移下移,字段重命名等。

 

 

步骤四、获取数据并导出

现在,我们已经配置好了一个采集任务。接下来是让任务自动运行。

点击【保存并启动】,选择【启动本地采集】,启动后八爪鱼开始全自动采集数据。(【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看详细说明。)

 

 

采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

 

 

数据示例:

 

 

经过以上操作,我们就将单个页面上的数据采集下来啦!大家对配置任务的过程已经有了一定理解,为后面课程的学习打好了基础!

 

 

分享【自定义配置】任务过程中的几个小技巧:

 

1、可点击   按钮,隐藏左侧边栏。鼠标移到3大区块之间,出现  按钮时,可通过拖拉改变区块的范围大小,便于配置规则。

 

 

2、鼠标移动到【流程图】展示区(图中红框内)时,按住【Ctrl】键同时滚动鼠标,可放大/缩小流程图。

 

 

3、选中【流程图】中的某个步骤,按【Delete】键可快速将其删除。也可鼠标右键进行【复制】【粘贴】【删除】步骤的操作。

 

 

4、点击【浏览器】右上角的  按钮 ,可将【操作提示框】隐藏起来。【操作提示框】隐藏后,按钮状态变为  ,再次点击即可显示出来。

 

 

 

作者:Aisling

编辑:Aisling