本文介绍如何增量采集的作用以及如何实现增量采集。

 

示例网址:

https://list.tmall.com/search_product.htm?spm=a220m.1000858.0.0.d811797qNnDlE&s=60&q=%B0%B2%BC%AA%B0%D7%B2%E8&sort=s&style=g&active=1&type=pc#J_Filter


http://stock.cngold.org/news/

    

有些用户配置了一个规则任务之后,可能会有除了需要第一次采集所有的数据内容,后续再采集的时候只需要采集网页上新增的数据内容,对于这个需求我们可以用增量采集这个功能实现。注意这个功能只会在云采集上生效。

 

注意整个规则中只能出现一个提取数据的步骤才可以启用增量采集功能,如下图所示如果有两个或以上提取数据的步骤是不支持增量采集的

 

1

 

配置规则的时候,在保存并启动旁有个齿轮状的设置按键,点开后云采集设置中有个启用增量采集。这个地方默认是不启用增量采集的。要勾上启用增量采集那个勾才会启用增量采集。

 

2 

 

可以上到上图中增量采集是有两个选项的

 

对比整个URL,包含所有参数这个意思是说,当前整条URL会与之前采集过的URL做对比,如果是完全一样的URL,就不会采集。


仅对比URL及以下参数意思是说,只会对比URL中部分相同的地方。例如:如果八爪鱼第一次运行采集到第一条URL所在网页的数据,第二次规则运行时我们遇到第二条URL了,注意我们识别参数是以链接中&开头然后=之前的视为一个参数选项的。

 

http://bbs.fblife.com/forum.php?&tid=14094703&page=1

 

http://bbs.fblife.com/forum.php?&tid=14094704&page=1

 

可以看到这两条URL中只有tid=后面的数字不一样,我们就可以选择仅对比tid这个参数,选择之后这两条URL都会采集 。另外再看下page参数,如果我们选择只对比page参数,那第二条URL就不会采集的

 

注意:如上图:系统默认选择“对比整个URL,包含所有参数”这个选项。

 

如果需要使用“仅对比URL及以下参数”这个选项,网页URL中必须要有对应的参数才会出现参数的选择,如果没有URL里没有参数则是没有参数选项的。

例如:下图中可以看到这是循环点击的规则,八爪鱼对比的是点击之后网页的URL


3

 

点击元素后,可以看到链接里是不带参数的


4 

点开设置后,勾选启用增量采集,仅对比URL及以下参数,发现对比参数的列表没有参数,说明不可用。


5


换一个带参数的规则,点击元素后如下:


6


点开设置后,勾选启用增量采集,仅对比URL及以下参数,发现对比参数的列表有了可以选择的参数。


7

 

这时候勾选需要增量采集的参数,便可在云采集是实现根据参数的增量采集。