八爪鱼功能点
安装注册
模板采集
自定义入门
循环
ajax与新标签
登录验证
XPath
特殊翻页
提取数据
数据导出
云采集
其他功能点
云采集日志查看
2022-07-07 3690
云采集日志主要有两个方面的应用:
1、查看任务云采集运行的运行情况,判断任务在云端是否正常运行采集
2、确定云采集遇到的问题
在启动云采集之前,需要设置一下自动截屏,这样云采集出错的时候我们可以看到出错时候页面显示的情况。
在任务配置界面,点击右上角的【采集配置】按钮,进入任务配置页面,勾选【启动云采集错误日志自动截屏】,点击【保存配置】。
(如果不勾选【启动云采集错误日志自动截屏】,则任务开始启动的时候获取一个页面截图,此时任进入日志可以看到这个截图。当任务结束时,会再获取一个页面截图;此时的页面截图会覆盖掉任务开始时的页面截图。如果勾选了【启动云采集错误日志自动截屏】,就会在出现错误日志的时候自动获取页面截图。错误日志对应的页面截图均会保存。)
一、查看任务云采集运行的运行情况,判断任务在云端是否正常运行采集
云采集日志查看方法
①启动云采集后,会弹出云采集窗口。
点击采集窗口这里的任务运行信息,可以看到整个任务的子任务拆分情况,以及每个子任务的运行状态,鼠标移动到状态为‘运行中’或‘已完成’子任务上,点击右侧出现的详情,就可以查看该子任务的运行日志,以及云采集任务网页页面的截图
②如果启动了多个云采集任务,那么只有最后启动的任务的云采集窗口会显示出来,如果要查看其他任务的云采集日志,可以在任务列表找到要查看的任务,点击采集状态里面的打开云采集主面板按钮,就可以打开该任务的云采集窗口(此操作会自动关闭其他任务的云采集窗口)。
点击采集窗口这里的任务运行信息,可以看到整个任务的子任务拆分情况,以及每个子任务的运行状态,鼠标移动到状态为‘运行中’或‘已完成’子任务上,点击右侧出现的详情,就可以查看该子任务的运行日志,以及云采集任务网页页面的截图
以这个任务为例,我们启动云采集,可以看到任务执行的步骤
窗口的上半部分是云端网页的打开情况,网页正常打开,加载出了数据。
窗口的下半部分是任务的运行日志,日志是按照时间顺序从前往后显示的,时间早的日志在最下面,新的日志在上面不断的更新。
日志的格式,左边是执行的日期和时间,右边是执行的具体步骤。
最开始的一条是开始采集,然后就是我们任务流程里面的打开网页,循环翻页,循环列表提取数据步骤,和我们的任务的流程是完全匹配的。
再看一个采集完成的子任务的日志,可以看到,最后的橘黄色日志内容()是:
[点击加载更多按钮] 没有找到目标元素 //P[normalize-space(text())='点击加载更多'][not(@disabled)][contains(string(),'点击加载更多')][not(contains(@style,'display: none;'))]
后面的日志是循环结束退出循环。
一般地,错误日志会以橘黄色文本突出显示,但是橘黄色日志并不一定能确定该步骤有问题,确定该步骤是否有问题,要结合任务的流程配置和网页的实际加载情况来判断。
比如这里的橘黄色日志,首先,我们看一下这个任务的流程,是循环点击加载更多采集点击后加载出来的数据的,结合页面截图,我们发现,页面上显示已无更多内容,也就是数据已经加载完成,所以没有了加载更多按钮,任务就完成采集,自己结束了。符合我们配置的流程和我们的需求,任务执行正常,没有错误。
二、确定云采集遇到的问题
主要针对本地采集正常,云采集有问题的情况,如果本地采集有问题,请先参考本地采集排错教程排查https://www.bazhuayu.com/tutorial8/bdcjpc
如果本地采集可以正常采集,而云采集采集不到数据,或者只能采集少量数据,可以借助云采集日志和截图排查原因
比如,云采集boss直聘的职位数据时,采集了一部分数据任务显示完成,我们打开云采集日志发现,云采集页面截图显示“403,当前IP存在多次违规访问行为,已暂时被禁止访问”,说明云采集过程中触发了网站的防采集,导致无法正常打开网页,从而不能继续采集数据。
比如,云采集lazada列表数据时,没有采集到数据,云采集就显示已完成,查看截图发现,页面出现了滑动验证,导致无法正常打开网页,从而不能继续采集数据。
由于云采集日志和云采集页面截图需从云服务器下载。查看的时候加载出来会需要一些时间,请耐心等待。
最后提醒一下:
某个任务如果启动了多次采集,只能查看该任务最后一次云采集的云采集运行日志和云采集截屏,日志和截屏在任务结束后最多保留48小时。每个账号的截屏容量大小是10G。截屏总大小超过10G也会自动清除之前的截屏。