返回上一级

八爪鱼功能点

安装注册

Windows客户端安装方法

Mac客户端安装方法

免费注册账号

客户端界面介绍

本地采集界面介绍

模板采集

使用模板采集数据

自定义入门

01 自定义采集（含智能识别）

02 采集单个数据

03 采集列表数据

04 采集表格数据

05 从列表进入详情页采集

06 翻页以采集多页数据

07 启动采集并导出数据

08 采集原理与流程执行逻辑

循环

文本循环：批量输入关键词

URL循环：批量采集同类网页

循环下拉框

ajax与新标签

ajax网页采集方法

边滚动边采集数据的方法

滚动加载数据采集方法

登录验证

登录后再采集数据

XPath

火狐firebug和firepath插件以及谷歌xpath helper安装方法

XPath系统学习与实例

XPath实例：修改循环列表XPath

XPath实例1：循环列表-过滤多余的项

XPath实例1：循环列表-添加更多的项

相对XPath学习与实例

采集遇到一二页重复循环的解决办法

特殊翻页

点击【加载更多】或【再显示20条】等按钮翻页

无【下一页】按钮，点击数字进行翻页

边点击加载更多边采集数据的方法

提取数据

添加特殊字段

自定义定位元素方式

设置备用位置

自定义抓取方式

字段合并

字段格式化

正则表达式

无此字段时如何处理

系统如何去重数据

数据导出

导出到SqlServer数据库

导出到Oracle数据库

导出到Mysql数据库

导出到数据库常见问题

云采集

云采集日志查看

云采集使用方法（含定时云采集）

云采集原理和规则加速设置

云采集实况与历史运行记录

数据导出API和任务控制API

企业版管理

云采集任务启动优化

其他功能点

网页空白的排错方法

执行前等待

判断条件

触发器功能说明

鼠标移上去出现新数据

网页包含iframe框架处理办法

如何获取浏览器UA（User-Agent简称UA）

08 采集原理与流程执行逻辑

2021-08-25 16477

经过前几课的学习，我们已经掌握了列表数据、表格数据、点击多个链接后的详情页数据、实现翻页的任务配置方法。

在此基础上，本课将详解八爪鱼的采集原理和流程执行逻辑，让大家对八爪鱼采集数据的方法有一个更深入的理解。

一、八爪鱼采集原理

1、模拟人的行为，通过内置Chrome浏览器浏览网页数据。

所以采集数据的第一步永远是找到目标网址并输入。这跟通过普通浏览器访问网页完全一样。

在普通浏览器中需要点击链接进入详情、点击翻页按钮查看更多数据，在八爪鱼中也需如此操作。

2、根据网页特性和采集需求，设计采集流程，八爪鱼根据流程全自动采集数据。

平常我们浏览网页的动作不会被记录下来。例如：这次在京东上输入关键词【手机】查询相关商品数据，下次还需要输。

在用八爪鱼采集数据的时候，我们就需要根据网页特性和采集需求，设计采集流程，将我们的采集需求记录下来。之后八爪鱼就能根据设计好的采集流程，全自动的采集数据。

例如：在前几课中学到的，需采集页面上的所有商品列表，我们就做一个【循环-提取数据】的步骤。采集时有很多页，需要翻页，我们就做一个【循环翻页】的步骤。

二、【采集流程】执行逻辑

八爪鱼通过【采集流程】全自动采集数据。【采集流程】执行逻辑遵循2个原则：先从上至下、再由内而外。

【采集流程】由【蓝色步骤】和【灰色框】两大部分组成。【蓝色步骤】是会执行的步骤，八爪鱼与网页发生互动。【灰色框】起记录网页的作用。

鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

来看几个实例，更深入理解【采集流程】执行逻辑。

实例1：

实例2：

实例3：

特别说明：

a. 【采集流程】无固定标准，符合网页本身的跳转逻辑即可。

b. 【采集流程】中可设置多个点击步骤、多个嵌套循环，以实现网页多层级的数据采集。

c. 【采集流程】中的步骤，可以拖动调整位置。鼠标选中步骤并拖住移动至想要的位置。

看到这里的小伙伴，恭喜您已经完成了【自定义配置采集数据】全部的入门课程。现在，您已经掌握基础的数据采集技能啦！

如果您有任何的问题与建议，请通过官网右侧QQ、电话、客服系统等多种渠道联系我们！

作者：Echo
编辑：Echo

安装注册

模板采集

自定义入门

循环

ajax与新标签

登录验证

XPath

特殊翻页

提取数据

数据导出

云采集

其他功能点

08 采集原理与流程执行逻辑

服务提示

咨询顾问

申请试用

选择版本

填写信息

服务提示