掌握『八爪鱼云采集』,少加班少熬夜!
在数据采集工作中,你经常遇到以下问题?
1、上级任务赶,数据采集慢?
老板要求马上提供5000条数据,你却发现用普通采集需要27.7个小时!!这堪称不可能完成的任务!!
2、买了高级版本,结果不会用?
花钱买了高级版本,结果不会用云采集、速度还是没有改善?
▼▼▼
本着让爪子们少熬夜,少加班的目标,小编借此机会向大家“普及一下”『云采集』的优势到底在哪里?如何将它的价值100%发挥出来?
云采集真的比本地采集快?
那必须的!
作为八爪鱼高级版本的一大亮点,云采集是实实在在地帮助用户提升采集速度!
以文章开头小张采集科创板申报企情数据举例,同一个任务,云采集只需花4分10秒, 而本地采集需要30分16秒。
有图有真相!
建议放大看!
科创板数据——云采集模式▲
科创板数据—本地采集模式▲
为什么云采集那么快?
1、什么是云采集?
云采集。即通过云服务器(云节点)实现多任务并发采集以便加快用户收集互联网公开数据。
云节点。一个云节点可以理解为“一台云服务器”,可以运行一个八爪鱼采集任务。
云采集与本地采集的区别▲
2、云采集加速诀窍——『任务自动拆分』
云采集模式下,运行一个任务至少占用一个云节点,最多可以占满该版本所拥有的所有云节点。一个规则任务可拆成多个子任务,分配到不同云节点执行,达到并行加速采集的效果。
3、云采集拆分需满足3个条件(任一)
当任务满足以下3个拆分条件(任一),一个规则任务便可拆分成多个子任务并行采集,实现云采集加速!一个任务最多支持拆成199个子任务;
条件1:网址URL列表循环
条件2:文本循环
条件3:固定元素列表循环
3种模式 + 3个示例网站
云采集 vs 本地采集 耗时、速度区别
3种循环任务示例:
1)网址URL列表循环
示例:科创板采集网址URL循环
科创板云采集任务自动拆分
2)文本循环采集
示例:百度搜索关键词文本列表循环
百度采多个关键词任务自动拆分
3)固定元素列表循环采集
示例:Q房网房源列表循环
Q房网房源列表任务自动拆分
温馨提醒:不懂这3个循环条件名词,赶紧关注『八爪鱼大数据』公众号后台回复“学习”获得8G八爪鱼史上最全学习资料包,恶补『八爪鱼基础8节课』)
不懂的打PP
4、云节点不够用,怎么办?
如云节点不够用,那么剩下的子任务会进入等待队列,直到某个云节点执行完某个任务释放出新的节点资源。
当然,你还可以选择扩充你的节点数量,升级八爪鱼更高版本,享受Vip服务哦。
金主爸爸大腿
所有任务都适用云采集拆分?
温馨提醒!
如不满足上述任何一个拆分条件,则无法触发云采集任务拆分。
有爪爪问:“要是不满足拆分条件,那云采集对我岂不是没用了?!”
并不是!!!
我们可以试着『优化规则』,让它变得满足云采集拆分条件。
例如,我们想采集一批网站数据。我们可以先将网站URL批量采集下来,然后再创建URL循环进行采集,这样就能满足云采集拆分条件,从而实现加速。
云采集还有哪些优点?
1、数据云同步
云采集数据自动保存在云端,即使切换了办公场景或电脑,只要登录八爪鱼账号,便能将数据从云端下载下来。
2、数据自动备份3个月
用户通过云采集获得的数据将自动保存3个月,即使当下忘记下载,也不怕数据丢失。
3、数据自动去重
数据如有重复,云采集将自动筛除重复数据,只保留有效数据。
4、定时采集
下班后还有数据要采集,可以在八爪鱼里“定个闹钟”,到点了云采集自动运行数据采集工作。
5、定频采集
这个功能非常适合采集新闻、政策发布这类定时更新的网站来源。用户将采集规则和频率设置好,就可以安心托管给八爪鱼,躺着收割数据。
6、关机24小时采集
这个功能的优势在于,它杜绝了突然遇到电脑死机、断电、断网,导致本地采集任务停止的情况。云采集任务在云服务器上运行,即使电脑关机了,也照样24小时工作。
7、不占用电脑CPU
由于云采集是在云服务器上运行,不占用本地电脑CPU,即使你同时开启多个云采集,你电脑性能不会受到影响。而本地采集需要占用电脑CPU,一旦同时启动多个,电脑性能将受到影响,造成卡顿,影响您的工作。
如何装备八爪鱼『云采集』?
目前八爪鱼有3个版本支持云采集,升级后自动开通。
有意向的用户请咨询我们:0755-86702246
或访问八爪鱼官网 www.bazhuayu.com,点击“欢迎咨询”联系在线客服。
工作时间:工作日 9:00-12:30、14:00-18:00
服务提示