在 新手指引 里,我们简单讲了数据采集的2种模式:【模板采集】和【自定义配置采集】。【模板采集】之前已经讲过,点击学习
【自定义配置采集】稍微复杂一点,我们将用1个系列的8节课来学习。在这8节课中,我们将介绍使用八爪鱼自行配置采集流程,进行网页数据采集的基础知识。学完这8节课,能够轻松采集到90%的网页数据。
第1课:自定义采集(含智能识别)本课
完成全部8节课需要30-60分钟。课程中遇到任何问题,都可通过企业微信群、在线客服等多种渠道联系我们。
本课,我们来看自定义配置采集数据基本介绍。
一、【自定义配置采集数据】
【自定义配置采集】有2种方式:使用【智能识别】和自定义配置采集流程。
1、使用【智能识别】
输入网址后,自动智能识别网页数据。支持识别列表型网页数据、滚动和翻页。我们来看一个智能识别的示例。
示例网址:https://mall.ebaiyin.com/category_3.shtml
Step1:在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开始智能识别。
给它一点时间,等待智能识别完成。
特别说明:
a. 打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】
【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。
【不再智能识别】:关闭自动智能识别,点击【自动识别网页】手动开启。也可在全局设置中,再次默认开启【智能识别】。
Step2:智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。
Step3:同时,可自动识别出网页的滚动和翻页。此示例网址,无需滚动,只需翻页,故只识别并勾选【翻页采集】。
Step4:自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,方便大家在这个基础上编辑修改。
Step5:然后,点击右上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采集数据。
Step6:采集完成后,以所需的方式导出数据即可。
通过【智能识别】创建并保存的任务,会放在【我的任务】中。在【我的任务】界面,可以对任务进行多种操作并查看任务采集到的历史数据。
值得注意的是,目前自动识别,仅支持识别列表型网页、滚动和翻页,如果列表型网页识别失败,请联系客服反馈。如果不是列表型网页,或者有更高级的采集需求,请自行配置采集任务。
2、自定义配置采集流程
什么是采集流程?采集流程(或叫采集任务,采集规则),是从特定网页上抓取数据的指令。每个网站的页面布局是不同的,因此采集流程不能通用。一般情况下,一个网站需要配置一个采集流程。
举个例子,京东商品采集和淘宝商品采集,需要配置2个不同的采集流程。下图中就是一个配置好的采集流程。
自己动手配置采集流程,可灵活应对各类采集场景,包括翻页、滚动、登录、AJAX网页等。
自己动手配置采集流程,需要掌握八爪鱼的基本操作。新手如何从0开始,自己动手配置一个采集流程并抓取到数据?从本系列第2课开始详细讲解。点击学习 第2课:采集单个数据
二、相关技巧介绍
在上述【智能识别】示例的Step4后,页面分为 网页显示、当前页面数据预览 和 流程图 三大区块。自己配置采集流程,界面也是这三大区块。以下分享3个区块的操作技巧。
首先,鼠标移到3大区块之间,出现 按钮时,可通过拖拉改变区块的范围大小,便于配置规则。
1、网页显示
a. 点击智能提示框中的 按钮 ,可将【操作提示框】隐藏起来。点击 按钮 ,将智能提示框调出。
2、当前页面数据预览
b. 鼠标移动到 按钮上,并拖住左右移动,可快速调整字段顺序。
c. 点击 按钮,可修改字段名称。
d. 选中【流程图】中的某个步骤,按【Delete】键可快速将其删除。也可点击 按钮,对字段进行更多操作:删除、复制、格式化等。
e. 点击 按钮,可快速添加字段:当前采集时间、当前网页信息、从网页中添加字段等。
f. 点击 按钮,可将「当前页面数据预览」隐藏起来,再次点击右上角的则再次显示在页面上。
g. 选中字段,网页同步高亮显示,方便找到字段在网页中的位置。
3、流程图
h. 鼠标移动到步骤上,该步骤颜色变深。
i. 点击每个步骤框,进入步骤基础、高级选项设置页面。
j. 点击 按钮,可对当前步骤进行更多操作:复制、粘贴、删除等。
k. 将鼠标移动到流程中的 位置,会出现 按钮。点击 按钮,可快速添加流程步骤。
l. 点击 按钮,可将流程图隐藏起来,再次点击界面右上角的则再次显示在页面上。
m. 鼠标移动到【流程图】展示区时,按住【Ctrl】键同时滚动鼠标,可放大/缩小流程图。
n. 点击「全部字段」,可显示当前任务中的全部字段。选中某个字段,网页相应位置、数据预览中都会高亮显示,可用于检查字段是否有遗漏,命名是否有误等。