在智能模式中,后羿采集器会自动识别分页,分页类型通常包括以下几种:
(1)分页按钮
(2)滚动加载
(3)瀑布流分页(滚动加载)+ 分页按钮
(4)不启用分页
但是偶尔也会发生识别结果错误的情况,原因通常包括以下几种:
(1)网页加载速度过慢,软件自动识别结束之后才出现分页按钮
(2)页面中存在多个分页按钮,软件最终只会选择其中的一个
(3)在滚动加载和分页按钮同时存在的情况中,软件自动滚动多次之后分页按钮仍未出现。
(4)当前页面中的分页按钮软件暂时未兼容
“分页设置”的设置菜单如下图所示。
针对不同的分页类型,设置步骤如下:
(1)分页按钮
i:自动识别分页:
点击“自动识别分页”选项。
软件会自动识别网页上的分页按钮,在识别成功后,页面会自动滚到分页按钮的位置,并且用红色的底色框进行框选。
ii:点选分页按钮:
如果软件无法自动识别出分页按钮,则需要手动“点选分页按钮”。
第一步:点击“点选分页按钮”选项
第二步:点击页面中的分页按钮
iii:编辑分页XPath:
如果以上两种情况都无法正确识别分页,此时需要通过编写XPath的方式来识别分页。
(2)瀑布流分页(滚动加载):
适合没有分页按钮,通过滚动来加载内容的网页。
(3)瀑布流分页(滚动加载)+ 分页按钮:
适合一开始没有分页按钮,需要通过滚动网页多次后才能加载出分页按钮的网页,或者已经显示了下一页按钮,但是当前网页内容未展示完毕,需要滚动网页多次后才能显示当前网页的全部内容。
这种分页类型比较难识别,尽管软件在自动识别时会尝试自动滚动,但是这个滚动的次数和当前网页所需的滚动次数可能不一致,所以这种类型的分页通常需要加入一些人工操作。
主要分为以下几种情况:
第一种:识别出滚动加载,但是未识别出分页按钮
请手动滚动网页,直到页面中出现分页按钮,然后选择分页设置中的“自动识别分页”。
如果自动识别失败,则选择“点选分页按钮”,然后去页面中点击分页按钮。
第二种:识别出分页按钮,但是未识别出滚动加载
这种情况下只需在原有分页设置基础上,选择“瀑布流分页(滚动加载)”选项即可。
备注:如果当前网页不需要滚动加载,而软件识别出滚动加载,此时不会影响采集结果,但是取消滚动加载选项可以提升采集的速度。
(4)不启用分页
如果不需要分页,请选择“不启用分页”。
备注:是否启用分页和当前网页是否存在分页按钮无关,只和你的采集需求有关,不启用分页可以缩小采集范围,提升采集速度。
文章评论