云采集的采集加速原理:

云采集是靠拆分任务加速的,一个任务拆分为多个子任务,分到不同的云服务器上运行,再回收每个云服务器上的数据传到数据库。

情况1,任务没有被拆分

没有被拆分的任务就是单机运行的速度,采集节点同样也只占1个,旗舰版的话最多还能运行同样不拆分的任务9个,每个都是单机速度,或者比单机慢,因为还要考虑任务需要上传到云端,云端分配任务到云服务器,云服务器将子任务运行起来,采到数据后数据上传到数据库,最后才展示到用户面前,这些过程都需要时间,但是对于有定时任务需求的用户还是很方便的,可以自动运行并合并累加每次运行出来的不重复数据。

情况2,任务单机运行本身就比较快

跟情况1一样,任务上传到云服务器到最后数据展示到用户面前是需要时间的,所以如果本身任务就半个小时之内就能运行完的,10倍速也不可能3分钟就运行完。

情况3,同时运行多个云采集任务

旗舰版最多同时跑10个云服务器,就是第一个任务如果拆了10个子任务,并且都运行了,第二个任务就需要等第一个任务运行完之后才开始运行,并不是可以运行10个任务,10个任务都是同时10倍速的状态

情况4,规则问题

规则的设置也会影响采集的速度,可以参考云采集规则优化加速案例:

http://bbs.bazhuayu.com/showtopic.aspx?topicid=1868