请输入
菜单

云采集漏数据原因?如何排查?

云采集漏数据原因有以下几种情况:

① 自身统计有误。翻查网页,尤其是最后几页,重新统计。

② 网站本身没有那么多的数据。

③ 对云采集的原理认识不够,机械的将云采集数据和本地采集的数据进行对比。数据没采集完,发现与本地数据不一样就认为云采集漏数据了,实际上它只是被放在了后面,参考 云加速原理教程

④ 将去重后的云采集数据与未去重的本地采集数据对比,觉得云采集数据少了。云采集数据会自动去重,看到的都是非重复数据。

⑤ 规则更改过,换过采集网址(URL),将更改后规则的数据与之前的对比,数据不同是很正常的。应该只对比一个规则本地采集和云采集的数据。

⑥ 网页格式发生变化,原来的xpath定位不准确,导致少数据。

⑦ 网站存在防采集措施(验证码、登录、封IP),导致云采集无法顺利采集所有数据。封IP和验证码,云采集和本地采集可以考代理ip或验证码。

⑧ 规则本身本地采集就会漏数据,这种情况请看 规则排错教程 修改规则。

⑨ 字段不存在。流程中有多个提取数据,如果某一个提取数据由于字段不存在而未提取到,同时设置的是提取不到数据【该步骤所有字段留空】,则整条数据会被删除,这样就会存在漏该数据,可将提取数据中某一个字段设置成固定字段(例如:当前时间、当前页面网址等一定能提取的数据信息)。

上一个
付费会员后可以解决淘宝天猫的反爬吗?
下一个
微博评论爬取数据后,为什么那么多重复的数据出现?
最近修改: 2023-10-24