云采集是靠拆分任务加速的,一个任务拆分成多个子任务,分到不同的云服务器上运行采集数据,再回收每个云服务器上的数据传到数据库中。
云采集慢的原因主要有以下几个:
① 任务没有被拆分
② 任务本地采集就很快,规则较简单(比如循环打开url,然后采集数据)
③ 同时运行多个云采集任务,团队版默认4个云节点,企业版默认16个节点,如需更多可叠加节点
④ 规则的设置会影响采集的速度
⑤云上采集出现防采
云采集采集速度快必须满足两个条件:
① 当前运行云采集的任务拥有足够多的云节点资源。否则将一直等待其他任务的云节点空余出来。
② 当前云采集的任务还必须要能拆分。3类规则是可以拆分加速的:循环URL列表;循环固定元素列表,循环关键词列表。详情请查看 云采集原理和规则加速设置教程