【智能模式】如何设置页面类型

2023年9月5日 49点热度 0人点赞 0条评论

在智能模式中,后羿采集器会默认按照列表类型进行识别,如果您输入网页属于单页类型,此时的页面类型识别结果肯定是不正确的;或者由于网页加载速度等其他原因,即使您输入的网页是列表类型,也可能出现识别失败的情况,此时您可以手动设置页面类型。

关于单页和列表页的介绍请参考以下教程:

什么是单页类型的网页?如何采集?

什么是列表类型的网页?如何采集?

分页设置的过程如下:

页面类型”的设置菜单如下图所示。

如果是单页类型的网页,您可以直接选择“单页类型”。

如果是列表类型的网页,您可以点击“自动识别”,软件会重新尝试识别列表。

列表中的每一个元素会在页面中用绿色的线框选起来,列表元素中的每一个字段会用红色的线框选起来。

如果自动识别效果不符合您的要求,您可以通过“手动点选列表”和“编辑列表Xpath”两种方式来修改识别结果。

手动点选列表的操作步骤如下:

第一步:点击“手动点选列表”的选项

第二步:点击网页中列表的第一行的第一个元素

第三步:点击网页中列表的第二行的第一个元素

备注:在上图中,我们做了两次列表的修改,第一次将识别结果修改为左侧的列表,第二次将识别结果修改为右侧的列表。

编辑Xpath的设置如下图所示:

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论