一、云采集原理
1.云采集是什么?
云采集是指,使用由八爪鱼提供的云服务进行数据采集。八爪拥有5000+云服务器,7*24小时运行云采集服务。
我们在本地电脑上将任务配置完成,测试没有问题以后,就可以选择启动八爪鱼的云采集。
注意,团队版以上用户自带云采集功能。什么是团队版?点击查看 版本套餐 。
2.云采集优势
与【本地采集】对比,【云采集】具有以下优势:
1、采集速度更快。
2、实现无人值守。可关闭电脑、软件进行数据采集,真正实现无人值守。
3、定时采集。云服务器是7*24小时,可设置任务的定时启动工作。
4、数据自动入库。
5、通过数据导出API接口,实现秒级导出,无缝对接内部系统。
3.如何启动云采集
任务配置完成以后,有多种方式启动云采集。
1、在任务配置界面,点击【采集】,选择【启动云采集】。与本地采集不同,云采集的采集方式。
在【启动云采集】后,在【我的任务】中,找到此目标任务,可以看到,此任务正在运行云采集。
点击,可查看云采集的采集实况,点击 按钮,可结束本次云采集。
云采集到的数据会实时更新显示在底部位置,本示例【采集到 100 条数据】。鼠标移动到【已采集数据到 100 条】并点击,可查看详情。采集完成后,可以根据自己实际需要的格式导出。
2、也可以直接在【我的任务】中,找到目标任务,点击【启动】按钮,启动云采集。
4.设置定时云采集
可通过设置定时云采集,实时采集各网站更新的数据。
1、对特定的任务设置定时云采集
找到任务,点击更多操作按钮,【云采集】-【设置时间】,会弹出一个【定时云采集】的设置弹窗。
支持多种时间方式:【只采集一次】【每周采集】【每月采集】【间隔时间采集】。请根据需要,选择定时方式。
本示例选择【间隔时间采集】,设置间隔时间为30分钟。
点击【保存并启动】,此任务将每间隔30分钟,自动启动一次云采集。
2、对任务组设置定时云采集
通过【我的】进入任务列表,鼠标选择任务显示方式为【任务组】。然后将移动到任务组名称上,出现4个图标。
图标,为任务组设置时间表。
接下来的操作,与单个任务设置定时采集的操作相同,不再赘述。
二、云采集加速设置
由云采集原理可知,一个任务要拆分成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的效果。
任务如果要拆分成子任务,需满足一定条件。以下三类任务是可以拆分的:
1、URL循环
2、文本循环
3、固定元素循环
1、URL循环
URL循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。
当URL数<=100时,拆分成与URL数相同的子任务数。当URL数>100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被拆分成30个子任务;循环中有278个URL,将被拆分成2个子任务。
示例网址:
http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_5a8bb0aeabb644288530125b3b297458.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-11/08/content_91821e3781e245a9885448c27f6a03e4.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-08/10/content_55ae9d896b4a469e92bf8a7608025d9c.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-02/23/content_68cddeb3febc4c5c99405fcbe485836b.shtml
http://www.ggzy.gov.cn/info/zcwj00/2023-02/06/content_bec97e8ddfea4f0fa99f562c67ca360b.shtml
5个详情页网址,需要采集每个详情页中的数据。
Step1:建立URL循环
Step2:启动云采集,点击【任务运行信息】,可以看到此任务的5条URL,拆分成5个子任务同时采集,加快采集速度
2、文本循环
文本循环类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。
当输入的文本数<=100时,拆分成与输入文本数相同的子任务数。当输入文本数>100时,拆分成输入文本数/100的子任务数。
文本循环拆分原理和URL循环一致,通过对文本循环的拆分,达到加速采集的效果。具体可见 教程:文本循环
3、固定元素列表循环
固定元素列表类的规则,可拆分成多个子任务,同时运行在多个云节点上,实现加速。
当固定元素列表类数<=100时,拆分成与固定元素列表数相同的子任务数。当固定元素列表数>100时,拆分成固定元素列表数/100的子任务数。
值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环方式后云拆分,才会有明显加速效果,如下图所示:
【循环-点击元素】有2种常见采集场景:① 点击商品/文章链接进入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。
如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环方式后云拆分,加速效果并不明显,如下图所示:
示例网址:http://deal.ggzy.gov.cn/ds/deal/dealList.jsp
采集需求:点击进入商品详情页,采集每个详情页中的数据。
Step1:建立循环点了进入详情采集正文
这时候我们查看循环列表的方式,发现是固定元素的方式
Step2:启动云采集,点击【任务运行信息】,可以看到此任务的20条列表数据,拆分成20个子任务同时采集,加快采集速度。