安装注册
模板采集
自定义入门
循环
ajax与新标签
登录验证
XPath
特殊翻页
提取数据
数据导出
云采集
其他功能点
企业版管理
2022-01-20 3380
本教程将介绍企业版套餐,并讲解如何查看/管理账号下的云采集节点,优化分配策略,提高采集效率。
一、企业版基本介绍
企业版是八爪鱼SaaS版本中的最高版本。企业版处于特定集群,拥有固定的云节点数,通常为30个或100个,专为具有企业级数据采集需求的客户而设计。
而团队版(旧套餐旗舰\旗舰+版本),则处于公共集群,其节点数是浮动变化的,所有团队版(就套餐旗舰/旗舰+)用户一起争夺节点的使用权。
二、企业版可手动调整每个任务的云节点数
企业版账号下的每个任务,云采集的最大可用节点数,默认为2(即每个任务最多有2个云节点同时进行采集)。
我们可以手动调整每个任务分配的云节点数,以更合理有效利用云节点。例如,给紧急的任务多分配一些云节点,提高任务优先级,以便在更短时间内完成紧急任务的数据采集。
调整后的节点数长期有效,再次启动或复制/导入导出任务,也无需重新设置节点数。
1、云节点分配入口
节点数的调整位置有三处:分别是客户端内的任务列表,官网的用户中心,团队协作管理平台。
a. 客户端内的任务列表(推荐)
点击【我的任务】进入任务列表。找到最右侧的【更多操作】,点击【...】,鼠标移动到【云采集】上,再移动到【分配资源】上,然后点击它。
最后在弹窗中设置该任务的最大可用节点。
b. 官网的用户中心
在官网登录,进入用户中心后,点击【任务和云节点管理】即可跳转到任务管理页面。找到所需要调整的任务,点击【修改】,然后在弹窗中修改云节点的数量。
2、云节点分配原则
根据云采集加速原理可知:任务能拆分的子任务越大,能同时执行云采集的云节点越多,采集的速度就越快。在实际采集过程中,账号内云节点的数量是有限的,也就是说,云采集速度的快慢,主要由当前在采集的子任务数决定,此数值越大,采集越快。
如何查看每个任务正在运行的子任务数?
通过 云采集实况功能,可查看子任务的拆分和运行情况:
如何得知账号正在运行的云节点数?
1.在【我的任务】界面,【云采集状态】中筛选出全部的【运行中】任务,依次查看每个任务的 云采集实况,然后将每个任务的【运行中】子任务数相加,即可得到当前时间账号有多少个云节点正在采集数据。
2.通过云监控预警平台查看
云节点分配原则:
a. 最大可用节点数不大于任务的已拆分子任务数。如默认已拆分子任务数是10,那它最多同时使用10个云节点,就算分配了20个,它也用不上全部的。多余的节点会自动给其他任务。
b. 云采集实际运行速度,取决于运行中的子任务数。如某任务设置的最大可用节点数是5,运行中的子任务数是5,等待中的子任务数是0。此时是通过调整最大可用节点数是无法提升任务的采集速度。因为任务全部子任务都已启动了采集。但如果运行子任务数5,等待子任务数为7。此时希望它运行快些,可调大最大可用节点数,此时调整成12即可(云节点占有量<=运行子任务数+等待子任务数),多给了云节点也用不上。
c. 一般而言,在账号内空闲节点充足的情况,建议给某个任务设置最大可用节点数为已拆分子任务数的50%~100%。账号内空闲节点非常紧张的情况,每个任务的最大可用节点数=账号总节点/同时运行任务数。这样会相对均衡,让每个任务都能有一定量的节点来采集数据。
d. 已经分配出去的云节点,完成该子任务的采集之后,才会被回收到账号中供其他任务使用。如:任务A的最大可用节点数是30,启动云采集后,这30个节点都在进行采集(即该任务运行中的子任务数是30)。随后又想降低任务A的云节点,分配一些节点给任务B使用。此时将任务A的最大可用节点数调成10个,那20个节点并不会马上转给任务B使用。而是继续运行任务A的子任务,该子任务完成后,才会转给任务B使用。
特殊情况说明:
1、有时可能出现所有运行中的子任务数之和小于账号节点数。所有的云节点都分配出去,并且 等待中子任务数+运行中子任务数>账号节点数。
原因:实际上节点是已经占用满了。但由于子任务分配节点的时间大于节点完成采集的时间,所以在查询的瞬间会出现节点用不满的假象。
举个例子,任务A的每个子任务只需要10秒就可以完成采集,但每个子任务分配上云节点并启动需要花费20秒。故在查询的瞬间就会出在采集的节点少,分配并启动的多。而我们的【运行中子任务数】,只是查询并显示正在采集过程中的,那类分配并启动中的不会查询到。故看起来像是节点用不满。
2、启动云采集后,【运行中】没有看到这个任务。
原因① :查看过快。任务在启动后,服务器需要先对任务进行预处理,判断能不能拆分,能拆分的执行拆分程序,然后分配云节点来执行子任务。这些过程会耗费些时间,如果立马查看,在【运行中】是看不到的,但在【等待运行】里可以看到。稍等一会后,就可以在【运行中】查看到了。
原因②:查看得太晚了,任务已经完成采集。此时可以在【完成中】可查看。