有一些网页,我们需对其采集流程中的某些步骤,设置【执行前等待】,才能正常采集到数据。

如何判断要不要设置【执行前等待】,怎么设置?

 

一、【执行前等待】是什么意思

 

【执行前等待】的意思是,在执行此步骤前,先等待一段时间(等待的时长由自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。

 

 

二、【执行前等待】的应用场景

 

1、手动执行规则有数据,启动本地采集后,很快提示:【采集已停止】

 

例:微博数据提取,手动执行规则是有数据的,但是启动本地采集后,很快提示【采集已停止】。

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

为什么?我们注意观察采集窗口。采集第1个步骤是【打开网页】,  表示正在打开网页,表示打开网页已完成。按照流程,打开网页完成后,立即进行下一个步骤,也就是【提取数据】步骤。

 

但是注意了,打开网页完成的时候,页面是空白,要采集的数据并未出现。八爪鱼找不到要采集的目标数据,就提示【采集已停止】了。

 

 

要解决这个问题,我们在【打开网页】后面的步骤,设置【执行前等待】即可。将鼠标移动到【提取数据】步骤上并双击,勾选【执行前等待】,设置时间为5秒(以网页实际打开时间为准)。

 

 

特别说明:

a. 【点击元素】步骤也会打开新的页面,有时候也会出现此种情况。因此【点击元素】后面的步骤,也需设置【执行前等待】

 

再次启动采集,就能正常采集到数据了。

 

 

2、【执行前等待】还可用来模仿人浏览网页的行为,降低采集频率,避免网站出现防采集。

几乎每个步骤都可设置【执行前等待】。等待时间过短,可能因数据未加载出来,采集不到数据;等待时间过长,会影响采集速度。

因此,请认真观察网页,根据网页具体情况来设置。

 

 

作者:Aisling

编辑:Aisling