返回上一级

八爪鱼功能点

安装注册

Windows客户端安装方法

Mac客户端安装方法

免费注册账号

客户端界面介绍

本地采集界面介绍

模板采集

使用模板采集数据

自定义入门

01 自定义采集（含智能识别）

02 采集单个数据

03 采集列表数据

04 采集表格数据

05 从列表进入详情页采集

06 翻页以采集多页数据

07 启动采集并导出数据

08 采集原理与流程执行逻辑

循环

文本循环：批量输入关键词

URL循环：批量采集同类网页

循环下拉框

ajax与新标签

ajax网页采集方法

边滚动边采集数据的方法

滚动加载数据采集方法

登录验证

登录后再采集数据

XPath

火狐firebug和firepath插件以及谷歌xpath helper安装方法

XPath系统学习与实例

XPath实例：修改循环列表XPath

XPath实例1：循环列表-过滤多余的项

XPath实例1：循环列表-添加更多的项

相对XPath学习与实例

采集遇到一二页重复循环的解决办法

特殊翻页

点击【加载更多】或【再显示20条】等按钮翻页

无【下一页】按钮，点击数字进行翻页

边点击加载更多边采集数据的方法

提取数据

添加特殊字段

自定义定位元素方式

设置备用位置

自定义抓取方式

字段合并

字段格式化

正则表达式

无此字段时如何处理

系统如何去重数据

数据导出

导出到SqlServer数据库

导出到Oracle数据库

导出到Mysql数据库

导出到数据库常见问题

云采集

云采集日志查看

云采集使用方法（含定时云采集）

云采集原理和规则加速设置

云采集实况与历史运行记录

数据导出API和任务控制API

企业版管理

云采集任务启动优化

其他功能点

网页空白的排错方法

执行前等待

判断条件

触发器功能说明

鼠标移上去出现新数据

网页包含iframe框架处理办法

如何获取浏览器UA（User-Agent简称UA）

JSON采集

2020-03-30 14782

八爪鱼提供JSON采集功能，通过打开JSON网址，配置流程，能够进行JSON采集。

一、JSON是什么

JSON是一种轻量的数据交换格式，由于一些优秀的特性比如比 XML 更小、更快，更易解析和阅读，并有效地提升网络传输效率，而得到广泛使用。

二、JSON采集的优点

1、无需加载图片视频等信息，采集速度更快

2、部分网站防采集限制减少，采集更加顺畅

三、JSON采集实例

示例网址：https://b2b.baidu.com/

需求：采集关键词为机械设备的信息地址，包括：公司名/链接/注册/产品/期限/注册资本

步骤操作：

步骤一、通过火狐浏览器获取JSON网址

JSON网址可以通过抓包工具来获取（如Fiddler），不会使用抓包工具的用户可以在火狐浏览器上安装firebug插件获取，或者在Chrome浏览器中，直接按F12把网页请求给调取出来。

第1步：

安装firebug插件后，在火狐打开，选择厂家，输入搜索后，按F12或下一个选择【使用查看元素】，在浏览器中浏览点击firebug调试器然后点击【网络】按钮，刷新下网页，让网页重新加载，此时可以看到这里有很多网址。JSON网址就在下面。

我们可以先点击【XHR】查看，JSON网址一般在XHR下面，如果在XHR中查找不到，则在【全部】中查找。

第2步：

点开每个url，查看是否有“JSON对象视图”，有的话则为JSON网址。

并不是每个JSON网址都是我们需要的，因此还要再点击“JSON对象视图”，查看里面的参数，看是否有目标数据，有目标数据的JSON网址，才是我们要找的url。

如图，前面的JSON网址都不含有目标数据，后面JSON网址里才找到含有目标数据，它就是我们需要的JSON网址。成功找到url后，右键“复制地址”。

第3步：

上面获取到只是当前页的JSON，JSON网址的页面一般需要研究目标网站的翻页规律，才能进行url循环采集。

在这个网页调试器中，我们点击【清除】，先清空网址，然后点击网页上的翻页按钮，进行翻页。用前2步的方法获取到第二页的JSON，同理找第三页的JSON链接。然后见这三个JSON链接放在Excel表格，观察其链接参数和格式，就可以从中找出翻页规律了。

该网站的翻页规律为每一页的参数中“p=n”的增加，第一页为1，第二页为2，第3页为3…… 所以可根据此规律批量生成多个页面的JSON网址。

步骤二、在八爪鱼中配置流程

第1步：

使用八爪鱼采集的批量生成网址功能，生成多个JSON页面。

如下图新建自定义任务，选择【批量生成】，输入一条网址后，选择p=后面的数字3，添加参数。根据网页总页码数设置结束值（此处以10为例）。

打开网页后，在打开网页的高级设置中勾选「JSON」。

（JSON页面增加了请求参数项，可将JSON网站理解为api接口，要填写的参数也类似于接口中的参数。多数网站无需填写。）

当前浏览器页面展示出树状视图，即JSON数据。

第2步：

如下图所示，示例网站中的数据数据—entList标签里，entList [15]表示有15条数据。

点开列表项标签，再点开第1条数据，可以查看到里面的数据字段，我们需要从中选择需要的字段进行提取。

第3步：

做JSON数据循环时，只需在众多个数据项节点中，提取第1个节点里面的数据字段，就可以自动循环，提取全部节点里面的字段。

如图，在第1个节点内，分别点击需要采集的字段，点击完成后选择[采集数据]，循环采集步骤就做好了。

规则配置完成，点击保存。

第4步：

点启动，开始本地采集，数据就以极快的速度采集下来了。

注意事项：

JSON利用JSON路径，详情可查看以下资料

Jsonpath介绍：https://www.cnblogs.com/aoyihuashao/p/8665873.html

Jsonpath在线测试网页：http://JSONpath.com/