一、功能简介
在采集数据时,可能存在网页没有正常打开(所需数据未能加载出来,多刷新下能正常加载),页面出现验证码、登录等等防采集的情况。
以上情况,大多可通过「重试」解决。
二、「重试」设置说明
在八爪鱼采集流程中,【打开网页】、【点击元素】和【点击翻页】步骤后均会打开新页面。在流程图下方,会出现[基础设置]、[高级设置]、[重试],将鼠标移到【重试】上,点开「重试」,即可进行相应设置。
1、重试条件
如果网页没有正常打开,例如显示服务器错误(500),访问频率太快等,或者跳转到其他不应该出现的页面。可以根据网页实际情况,设置「重试」条件,当满足「重试」条件时,将自动重新打开网页。
每个步骤最多添加3个条件,条件之间是“或”的关系,即满足其中一个条件就会重新打开网页。
① 当前网页的网址/文本/XPath,包含/不包含
当前页面的网址,包含/不包含,比较容易理解。
例:网页出现防采集时会跳到登录页,这时网址中通常会包含login等字样。此时,「重试」条件可以设置为
当前页面的文本,包含/不包含,也比较容易理解。
例:网页没有正常打开,出现“您的访问频率过快”文字提示(每个网页的提示文字不一样,请认真观察)。此时,「重试」条件可以设置为
当前页面的元素XPath,包含/不包含,这个需要有一定的XPath知识。点击系统学习XPath
例:如果网页按预期正常打开,那当前步骤的下一个步骤的定位XPath肯定存在,如果未正常打开,则不存在。可以此来设置重试条件。
假设「打开网页」后, 是「输入文本」,那我们就用「输入文本」的定位XPath来作为重试的条件:
注意:「打开网页」、「点击元素」和「点击翻页」步骤后的第一个步骤是什么,是根据网页情况和采集需求而定的,请认真观察,找最有效方便的就行。
② 重试次数
为了避免无限制重复打开网页,可设置重试次数。如果达到设置的重试次数后,仍未正常打开网页,则不再重试,继续向下执行采集流程。
③ 时间间隔
设置两次重试的间隔时间。一般情况下,当打开网页出错时,立即重试很有可能是同样的错误,适当等待则可能成功打开预期网页。
需要注意的是,如果设置过长的时间间隔,会影响采集速度。
2、重试时同时切换代理IP
部分网页是由于封禁了特定IP,所以不能正常打开网页,可以尝试通过「重试时同时切换代理IP」解决。当满足某个「重试」条件,触发重试时,同时切换代理IP。
有两种代理IP可供使用:
优质代理:八爪鱼提供优质代理IP服务,可用性高,防采集效果优良。需额外付费购买。点击立即购买
已购买的优质代理IP余额有效期?
代理IP是一次性消耗使用的,比如购买500个代理IP,消耗一个少一个,剩下499个代理IP;如果账户一直为专业版及以上版本未过期,则这499个代理IP可一直使用,直到用完为止;如果账户降为免费版,则这499个代理IP无法使用,需要升级为专业版及以上版本方可使用。
代理IP存在一定的废弃率,在启用优质代理IP采集数据过程中,我们都会实时监测每个代理IP的可用性。代理IP采用预扣除的形式,对于废弃的代理IP,会在规则执行完半小时内进行返还。
注意:需要使用优质代理IP的可联系客服,先测试该网站使用优质代理IP的效果。部分防采集封得紧的网站,使用优质代理IP采集页面数据效果一般,比如:大众点评、58同城、淘宝等。
随机伪造IP:对于一些防采集技术水平不高的网站,可以通过随机伪造IP功能进行突破,免费使用。具有副作用:伪造的IP来自全国各地,部分网站可能会根据不同IP显示不同地区的页面内容,启用此项将会导致采集规则失效。您需要针对目标网站进行充分实验,然后再决定是否启用此功能。
特别注意:「重试时同时切换代理IP」中的「优质代理」和「随机伪造IP」都是国内的IP,如果采集的是海外网站而且需要科学上网的请不要勾选。
3、重试时同时切换浏览器版本
在不同的浏览器版本中,网页可能有不同的显示结果。如果用默认浏览器无法正常打开网页, 可尝试「重试时同时切换浏览器版本」。当满足某个「重试」条件,触发重试时,同时切换浏览器版本。
勾选「重试时同时切换浏览器版本」后,点击「浏览器列表」字样,请注意,有些网站并不能在所有UA下都完美显示,需要进行调试和观察。
特别注意:UA的切换列表里面有:电脑端UA和手机端UA。同一个网址,电脑端和手机端的UA打开网页,页面结构会不一样。所以设置重试条件时,电脑端的网页不要勾选手机端的UA。同理,手机端的网页不要勾选电脑端的UA。
三、与任务设置页面的智能防封有何异同
在八爪鱼中,有两个地方可以设置代理IP。一个是 任务设置界面的「智能防封」,一个是本教程上文详细讲解的「重试时同时切换代理IP」。
购买的优质代理IP,在任务设置界面的「智能防封」和规则配置中的「重试时同时切换代理IP」,均可使用。
建议:只在一处勾选使用代理IP,使网页能正常打开进行数据采集即可。如果两个地方都使用代理IP,代理IP的消耗量会很大。一般而言,重试时使用代理IP效果更佳。
文章评论