安装注册
模板采集
自定义入门
循环
ajax与新标签
登录验证
XPath
特殊翻页
提取数据
数据导出
云采集
其他功能点
增量采集功能说明
2022-09-19 2165
在采集数据过程中,我们可能有这样的:第一次采集所有数据,需要再采集的时候只需要采集网络就添加的数据,这时候就可以使用八爪鱼的【增量采集】功能。
【增量采集】通过对比URL来实现增量数据的采集:
将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。
一、功能说明
在任务配置页面,点击【采集配置】按钮,进入配置页面:
进入设置页面后,可以看到:
【启用增量采集】的选项。同时提供两种网址对比方式:
【对比整个URL,包含所有参数】:当前整条网址与之前采集过的网址做对比,如果是完整的网址,则跳过不采集。
【仅对比URL及以下参数】:对比URL中的特定参数,如果指定参数相同,则跳过不采集。
勾选【启用增量采集】后,默认使用【对比整个URL】,然后点击【保存配置】,即可对该任务启用增量采集。
特别说明:
a. 什么是网址参数?网页链接中&和=之间的为参数,下面有【tid】和【page】两个参数。
例如:
http://bbs.fblife.com/forum.php?&tid=14094703&page=1
http://bbs.fblife.com/forum.php?&tid=14094704&page=1
观察以上两个网址,有着不同的【tid】 参数和相同的【页面】,
如果选择【对比整个URL,包含有所有参数】,则第二条网址会被采集。
如果选择【仅对比网址及以下参数】,对比【页面】参数,第那么条网址不会被采集。
二、注意事项
1、【增量采集】只能用于云采集,不能用于本地采集。
因采集是单次采集,每次停止后都从头开始采集,因此不能使用【增量采集】功能。
2、【增量采集】只能用于非AJAX的网页。
AJAX网页点击后,网址链接发生改变,无法通过对比URL实现原生采集。
3、网址有参数,才能使用【仅对比网址及以下参数】
例如:
以下规则是【循环-点击元素】类规则,每次点击后会跳转到新的页面。
观察发现,点击后页面链接是不带参数的,因此无法选择【仅对比网址及以下参数】这种方式。
换一个点击后页面链接带参数的网址,如下图所示有【spm】【id】【skuId】多个参数,这时候就可以根据参数设置增量采集了。
示例网址:https://detail.tmall.com/item.htm?spm=a221t.1710963.goodlist.10.48711135LWXP9U&id=657774926583&skuId=4920053579722
所有参数设置增量:
4、【提取数据】步骤数限制
规则中只有一个【提取数据】一步一步实现【增量采集】。如果有两个或以上的【提取数据】,是不支持增量采集的。