【智能模式】如何设置分页

2023年9月5日 22点热度 0人点赞 0条评论

在智能模式中,后羿采集器会自动识别分页,分页类型通常包括以下几种:

(1)分页按钮

(2)滚动加载

(3)瀑布流分页(滚动加载)+ 分页按钮

(4)不启用分页

但是偶尔也会发生识别结果错误的情况,原因通常包括以下几种:

(1)网页加载速度过慢,软件自动识别结束之后才出现分页按钮

(2)页面中存在多个分页按钮,软件最终只会选择其中的一个

(3)在滚动加载和分页按钮同时存在的情况中,软件自动滚动多次之后分页按钮仍未出现。

(4)当前页面中的分页按钮软件暂时未兼容

分页设置”的设置菜单如下图所示。

针对不同的分页类型,设置步骤如下:

(1)分页按钮

i:自动识别分页:

点击“自动识别分页”选项。

软件会自动识别网页上的分页按钮,在识别成功后,页面会自动滚到分页按钮的位置,并且用红色的底色框进行框选。

ii:点选分页按钮:

如果软件无法自动识别出分页按钮,则需要手动“点选分页按钮”。

第一步:点击“点选分页按钮”选项

第二步:点击页面中的分页按钮

iii:编辑分页XPath:

如果以上两种情况都无法正确识别分页,此时需要通过编写XPath的方式来识别分页。

(2)瀑布流分页(滚动加载):

适合没有分页按钮,通过滚动来加载内容的网页。

(3)瀑布流分页(滚动加载)+ 分页按钮:

适合一开始没有分页按钮,需要通过滚动网页多次后才能加载出分页按钮的网页,或者已经显示了下一页按钮,但是当前网页内容未展示完毕,需要滚动网页多次后才能显示当前网页的全部内容。

这种分页类型比较难识别,尽管软件在自动识别时会尝试自动滚动,但是这个滚动的次数和当前网页所需的滚动次数可能不一致,所以这种类型的分页通常需要加入一些人工操作。

主要分为以下几种情况:

第一种:识别出滚动加载,但是未识别出分页按钮

请手动滚动网页,直到页面中出现分页按钮,然后选择分页设置中的“自动识别分页”。

如果自动识别失败,则选择“点选分页按钮”,然后去页面中点击分页按钮。

第二种:识别出分页按钮,但是未识别出滚动加载

这种情况下只需在原有分页设置基础上,选择“瀑布流分页(滚动加载)”选项即可。

备注:如果当前网页不需要滚动加载,而软件识别出滚动加载,此时不会影响采集结果,但是取消滚动加载选项可以提升采集的速度。

(4)不启用分页

如果不需要分页,请选择“不启用分页”。

备注:是否启用分页和当前网页是否存在分页按钮无关,只和你的采集需求有关,不启用分页可以缩小采集范围,提升采集速度。

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论