八爪鱼,百万用户信赖的网络爬虫工具

八爪鱼8.5.4版本新增云采集日志收集功能,采集动作尽收眼底!

作者:keven 发布时间:7/15/2022 6:01:45 PM 2439 人已阅读

摘要:8.4.8版本中的本地采集日志系统在本次更新中也同步上线至云采集模块!只需在启动云采集之前,设置自动截屏,即可记录云采集步骤及快照。 日志详情可以帮助用户查看任务云采集运行的具体情况,判断任务在云端是否正常运行,云采集再也不是黑盒模式。

爪子们!经过多个版本内测与迭代,「八爪鱼8.5.4版本」正式上线啦!

 

一起来看看这次更新有哪些内容吧~

云采集模块

 

新增云采集日志功能

 

8.4.8版本中的本地采集日志系统在本次更新中也同步上线至云采集模块!只需在启动云采集之前,设置自动截屏,即可记录云采集步骤及快照

 

日志详情可以帮助用户查看任务云采集运行的具体情况,判断任务在云端是否正常运行,云采集再也不是黑盒模式。

 

 1. 如何设置 

在任务配置界面,点击右上角的【采集配置】按钮,进入任务配置页面,勾选【启动云采集错误日志自动截屏】,点击【保存配置】。

 

 

 2.如何查看日志详情 

点击右侧出现的【详情】,就可查看该子任务的运行日志,以及云采集时网页页面的截图

注:云采集仅记录最新1000条日志详情,在采集完成后将保留48小时,过期自动删除

 

 

 

支持查看错误日志前后20条及快照 

 

有了云采集日志记录,能够帮助我们实时掌控采集进度和情况。若出现采集不到数据,或只能采集少量数据的情况,就可以借助云采集日志和快照排查原因示例如下:

 

01

 

云采集boss直聘的职位数据时,采集了一部分数据任务显示完成,我们打开云采集日志发现,云采集页面截图显示“403,当前IP存在多次违规访问行为,已暂时被禁止访问”,说明云采集过程中触发了网站的防采集,导致无法正常打开网页,从而不能继续采集数据。

 

 

02

 

云采集lazada列表数据时,没有采集到数据,云采集就显示已完成,查看截图发现,页面出现了滑动验证,导致无法正常打开网页,从而不能继续采集数据。

 

本地采集模块

 

新增展示异常链接信息明细及补采功能

 

本次更新在本地采集的任务概况模块新增采集异常链接列表,列表中可以清楚的看到采集中的异常链接及错误信息。

 

对于由于网页设置、网络问题或采集过于频繁等原因导致的异常链接可以点击对应链接完成补采,从而有效避免信息遗漏。

 

 

自定义任务配置模块

 

新增组合文本输入

 

更新后的文本内容输入有了更多选择,支持一次性输入2个及以上的文本框内容,如账号&密码等。

 

不同文本框之间可以用“;”区分,多个文本使用回车换行。如:

账号1;密码1

账号2;密码2

账号3;密码3

......

 

 

新增“返回上一级网页”步骤

 

添加流程新增“返回上一级网页”选项,在网页中可以点击直接返回上一级,类似浏览器中的返回按钮,让采集流程更顺滑。

 

 

新增时间格式化

 

新增yyyy-MM-dd HH:mm:ss时间格式,即:年-月-日 时(24小时制)-分-秒,可以将采集到的时间信息调整为固定的格式

 

 如何设置:

选择时间文本栏,点击【...】,选择【格式化数据】,点击【+添加步骤】-【时间格式化】,即可选择目标格式。

 

 

 

以上就是本次版本更新的全部功能,访问八爪鱼官网【软件下载】,下载最新版客户端即可体验。


欢迎咨询在线客服
加微信群,与更多用户一起交流