菜单

云采集漏数据可能原因与排查方法

1、自身统计有误。翻查网页，尤其是最后几页，重新统计。

2、网站本身没有那么多的数据。

3、对云采集的原理认识不够，机械的将云采集数据和本地采集的数据进行对比。数据没采集完，发现与本地数据不一样就认为云采集漏数据了，实际上它只是被放在了后面。参考教程：云采集原理和规则加速设置

4、将去重后的云采集数据与未去重的本地采集数据对比，觉得云采集数据少了。云采集数据会自动去重，看到的都是非重复数据。

5、规则更改过，换过采集网址(URL)，将更改后规则的数据与之前的对比，数据不同是很正常的。应该只对比同一个规则本地采集和云采集的数据。

6、网页格式发生变化，原来的xpath定位不准确，导致少数据。这种情况需要检查循环列表的xpath定位是否正确，不正确的话需要手动修改xpath。

7、网站存在防采集措施（验证码、登录、封IP），导致云采集无法顺利采集所有数据。封IP和验证码，云采集和本地采集可以考虑使用代理IP或者验证码套餐。

验证码充值到余额进行购买

8、规则本身本地采集就会漏数据，这种情况请看规则排错教程修改规则。

9、字段不存在。流程中有多个提取数据，如果某一个提取数据由于字段不存在而未提取到，同时设置的是“提取不到数据，该步骤所有字段留空”，则整条数据会被删除，这样就会存在漏掉该数据，可将提取数据中某一个字段设置成固定字段（例如：当前时间、当前页面网址等一定能提取到的数据信息）。

若有疑问可加企业微信群咨询！

上一个

如何使用云采集？

下一个

采集时遇到每一页都重复采集第一条数据？

最近修改: 2023-11-02

大纲