1.自身统计有误。翻查网页,尤其是最后几页,重新统计。

2. 网站本身没有那么多少数据。

3. 对云采集的原理认识不够,机械的将云采集数据和单机采集的数据进行对比。数据没采集完,发现与单机数据不一样就认为云采集漏数据,实际上它只是被放在了后面。参考云加速原理教程

4. 将去重后的云采集数据与未去重后的单机数据对比,觉得云采集少了。云采集数据会自动去重,看到的都是非重复数据。


5. 规则更改过,换过URL,将更改后的规则的数据与之前的对比。数据不同是很正常。应该只对比一个规则单机和云采集的数据。


6. 网页格式发生变化,原来的xpath不准确,导致少数据。


7. 网站存在防采集措施(验证码、登录、封IP),导致云采集无法顺利采集所有数据,单机采集代理IP教程


8. 规则本身单机采集就会漏数据,请看规则排错教程修改规则。
规则排错教程


9.字段不存在:流程中有多个提取数据,如果某一个提取数据由于字段不存在而未提取到,则整条数据会被删除,这样就会存在漏该数据,可将提取数据中某一个字段设置成固定字段(例如:当前时间、当前页面网址等一定能提取的数据信息)