云采集是靠拆分任务加速的,一个任务拆分成多个子任务,分到不同的云服务器上运行,再回收每个云服务器上的数据传到数学库

1) 任务没有被拆分

2) 任务单机本分就很快

3) 同时运行多个云采集任务,团队版默认4个云节点进行采集,企业版默认16个,如需更多可叠加节点

4) 规则的设置会影响采集的速度

是不是有时候觉得云采集不快?仔细看教程,采集提速,你也可以学会!

 

云采集要想快,必须满足两个条件(大家可以把这个保存下来以后每次先对照):

1) 你自己没有其他云采集任务把分配给你的云计算资源耗尽。例如没有任何其他任务在采集。如果有一个任务,也有可能占满所有资源。

2) 在确保第一点满足的情况下,当前云采集的任务还必须要能拆分,能否拆分如何判断呢:任务中有循环URL列表,循环固定元素列表,循环关键词列表的都可以拆分,其他都不可以。

注意:如果你的任务有登录账号密码的,请在任务设置中选择“云采集不拆分”,否则有可能登录失败导致采集不到。

私有云的道理都一样,影响快慢的根本因素只有两点:1) 目标网站打开网页的速度快不快;2)你的采集规则设置的好不好。

不管是本地采集还是云采集,都可以参考这个教程:/faq/ 加快采集速度