菜单

云采集漏数据原因？如何排查？

云采集漏数据原因有以下几种情况：

① 自身统计有误。翻查网页，尤其是最后几页，重新统计。

② 网站本身没有那么多的数据。

③ 对云采集的原理认识不够，机械的将云采集数据和本地采集的数据进行对比。数据没采集完，发现与本地数据不一样就认为云采集漏数据了，实际上它只是被放在了后面，参考云加速原理教程

④ 将去重后的云采集数据与未去重的本地采集数据对比，觉得云采集数据少了。云采集数据会自动去重，看到的都是非重复数据。

⑤ 规则更改过，换过采集网址(URL)，将更改后规则的数据与之前的对比，数据不同是很正常的。应该只对比一个规则本地采集和云采集的数据。

⑥ 网页格式发生变化，原来的xpath定位不准确，导致少数据。

⑦ 网站存在防采集措施（验证码、登录、封IP），导致云采集无法顺利采集所有数据。封IP和验证码，云采集和本地采集可以考代理ip或验证码。

⑧ 规则本身本地采集就会漏数据，这种情况请看规则排错教程修改规则。

⑨ 字段不存在。流程中有多个提取数据，如果某一个提取数据由于字段不存在而未提取到，同时设置的是提取不到数据【该步骤所有字段留空】，则整条数据会被删除，这样就会存在漏该数据，可将提取数据中某一个字段设置成固定字段（例如：当前时间、当前页面网址等一定能提取的数据信息）。

最近修改: 2023-10-24

大纲