【本地采集】即用自己的本地电脑进行数据采集,消耗的是本地电脑的资源。常用于任务调试或小规模数据采集,规则配置完成之后,点击页面右上角的采集按钮即可启动。此外,本地采集现已添加加速模式,满足拆分条件即可使用。
一、普通模式
首先根据自定义入门教程,配置一个采集任务,这里小八配置了一个采集的任务,任务配置完成后点击页面右上角的采集,在弹出的启动选项中选择【普通模式】
启动采集后就是本地采集的界面,先整体的来看一下
下面详细介绍每一个页面的内容
1.默认页面,上半部分显示任务的状态:已采集到的数据量、重复数据量、采集用时、平均速度等,下半部分显示的是当前采集到的具体数据。
右侧的【暂停】、【停止】按钮,分别可以暂停和停止当前运行的任务。
窗口右上角有【显示网页】选项,点击该选项可以显示出网页的实际加载和运行情况
上半部分和下半部分中间有【任务概况】、【数据列表】、【任务日志】、【采集历史】四个选项,可以分别切换到对应的内容。
2.【任务概况】页面,可以看到当前采集的开始时间、结束时间、去重后的数据量、验证码使用数量、代理ip使用数量,异常链接数量以及设置任务的定时启动和定时导出情况。
3.【任务日志】页面,可以看到任务具体的执行步骤,勾选右侧只显示错误日志后,可以看到有问题的步骤,方便定位问题排错纠正。最右侧的导出日志选项,可以将日志导出为文本文件。
4.【采集历史】页面,显示当前任务最近几次本地采集的记录,可以将本地采集的数据按批次备份到云端或者导出,也可以全部备份到云端或导出。
同时可以在此页面设置自动备份数据到云端。
5.点击【显示网页】后,页面上半部分为网页预览区域,下半部分为数据预览区域,同样可以点击【任务概况】、【数据列表】、【任务日志】、【采集历史】四个选项,切换到对应的内容。
二、加速模式
首先根据自定义入门教程,配置一个采集任务,这里小八配置了一个采集任务,用来给大家演示。任务配置完成后点击页面右上角的采集,在弹出的启动选项中选择【加速模式】
启动采集后就是本地采集的界面,先整体的来看一下
下面详细介绍每一个页面的内容
1.默认页面,与普通模式基本相同,上半部分采集状态区域,增加了加速状态提示,右侧增加了【停止加速】按钮,点击该按钮后当前运行中的子任务同时运行完成后,后面的子任务依次运行,不再加速。
2.加速模式下的数据列表、采集历史页面与普通模式相同,此处不在展开
3.普通模式下的【任务日志】选项变为【任务运行信息】,中间右侧显示子任务的拆分情况。
下方是每个子任务的运行记录,包括开始时间、结束时间、采集耗时、采集数据量、运行状态等
鼠标移动到某一个子任务上,该子任务右侧会出现暂停和查看详情按钮。点击暂停,会暂停该子任务,其他子任务正常运行。点击查看详情,可以进入到这个子任务的采集详情,子任务采集详情页面提供了【数据列表】、【任务日志】两个选项,点击【任务日志】可以查看当前子任务的运行步骤。
查看运行中的子任务的采集详情的另一个入口:点击采集窗口右上角的显示网页,下面会有正在运行的子任务,点击要查看的子任务,就可以打开该子任务的采集详情页面
作者:surely
编辑:surely