八爪鱼重试、重试并切换代理IP功能说明
2018-06-28 17:06:40 阅读量: 18724
功能简介
在采集数据时,可能存在网页没有正常打开(所需数据未能加载出来,多刷新下能正常加载),页面出现验证码、登录等等防采集的情况。针对这种情况,八爪鱼推出了「重试+防封」(防封:重试时同时切换代理IP、重试时同时切换浏览器版本)功能。您可以根据网页实际打开情况,在规则配置页面,通过设置「重试」条件对网页进行重新打开,即再次刷新页面。对于防采集的页面还可以设置「重试+防封」来正常打开网页,解决数据漏采问题。通过配置相应的重试条件,在满足条件时通过切换代理IP和浏览器版本来重新打开网页,即使用新的IP和浏览器版本再次打开网页。因为网站的防采集多数是通过IP和浏览器封锁来实现的。
功能界面如下
在「打开网页」和「点击元素」的「高级选项」界面均可看到并配置此「重试」功能。
使用版本限制
目前本地采集、云采集(需升级到旗舰版)均可使用此功能
「重试」功能,所有用户可用,按照教程设置重试条件即可
「重试+防封」功能,除「优质代理」是专业版及以上用户可用外,「随机伪造IP」和「重试时同时切换浏览器版本」所有用户可用
使用后是否可解决数据漏采问题?
使用「重试时同时切换代理IP」中的「优质代理」,需购买优质代理IP。购买代理IP后,我们无法保证重试+防封能100%正常打开网页,解决数据漏采问题。实际使用过程中,您需要不断调试+测试规则,方可稳定使用。
「重试」
如果网页没有按照成功打开预期页面,例如显示服务器错误(500),访问频率太快等,或者跳转到其他正常执行不应该出现的页面,可以使用本选项进行重试,但必须配合以下几个重试参数执行。请注意,以下几种判断的情况任意一种出现时,八爪鱼都将重试打开网页。
① 当前网页的网址/文本/XPath,包含/不包含
如果当前页面网址/文本/XPath总是出现/不出现某个特殊内容,则使用此选项可以判断有没有打开预期页面,需要重试
② 最大重试次数
为了避免无限制重复尝试,请使用本选项限制最大重复尝试的次数,如果重试到达最大允许的次数,任然没有成功,则流程将停止重试,继续执行下一步骤
③ 时间间隔
在两次重试之间等待的时间,一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页,但应该尽量避免设置过长的等待时间,因为这会影响采集速度
「重试+防封」
部分网页是由于封禁了特定IP,所以不能正常打开网页,可以尝试通过「重试+防封」解决。「防封」不可单独使用,需配合「重试」一起使用。当满足某个「重试」条件触发重试时,根据设置,启动「重试时同时切换代理IP」或「重试时同时切换浏览器版本」。
进入规则配置页面,下图红色区域为实际配置区域:
勾选「重试时同时切换代理IP」后,可选择勾选「优质代理」,也可选择勾选「随机伪造IP」。「优质代理」收费,八爪鱼提供优质代理IP服务,可用性高,防采集效果优良。「随机伪造IP」免费,对于一些防采集技术水平不高的网站,可以通过随机伪造IP功能进行突破。「随机伪造IP」的副作用:伪造的IP来自全国各地,部分网站可能会根据不同IP显示不同地区的页面内容,启用此项将会导致采集规则失效。您需要针对目标网站进行充分实验,然后再决定是否启用此功能。
勾选「重试时同时切换浏览器版本」后,再点击右侧的「设置浏览器列表」链接字样,就可以配置采集过程中,浏览器版本(UA)的切换列表。实际配置过程中,请注意有些网站并不能在所有UA下都完美显示,需要进行调试和观察。
与任务设置页面的智能防封有何异同
在八爪鱼中,有两个地方可以设置代理IP。一个是任务设置界面的「智能防封」,一个是规则配置界面的「重试+防封」。购买的优质代理IP,在任务设置界面的「智能防封」和规则配置界面的「重试+防封」中,均可使用。
建议:只在一处勾选使用代理IP,使网页能正常打开进行数据采集即可。如果两个地方都使用代理IP,代理IP的消耗量会很大。一般而言,重试时使用代理IP效果更佳。
如何收费
已购买的优质代理IP余额有效期?
代理IP是一次性消耗使用的,比如购买500个代理IP,消耗一个少一个,剩下499个代理IP;如果账户一直为专业版及以上版本未过期,则这499个代理IP可一直使用,直到用完为止;如果账户降为免费版,则这499个代理IP无法使用,需要升级为专业版及以上版本方可使用。
代理IP存在一定的废弃率,在启用优质代理IP采集数据过程中,我们都会实时监测每个代理IP的可用性。代理IP采用预扣除的形式,对于废弃的代理IP,会在规则执行完半小时内进行返还。