后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示:
批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况:
第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。
第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过批量生成的方式来生成,而无需手动填写。
一般情况下,网址的基本结构都是:固定网址+变化参数
这里我们用后羿采集器官网作为例子来给大家介绍一下,网址示例如下:
http://www.houyicaiji.com/?type=list&cat_id=148
http://www.houyicaiji.com/?type=list&cat_id=148&page=2
http://www.houyicaiji.com/?type=list&cat_id=148&page=3
http://www.houyicaiji.com/?type=list&cat_id=148&page=4
上面几个网址对应的网页如下图所示,我们可以看到除了首页,其余网址除了红色部分数字不同,其余部分都是相同的。
(注:针对首页不符合规则的情况,我们可以尝试手动修改成符合规则的样子,即:http://www.houyicaiji.com/?type=list&cat_id=148&page=1,如果修改前后都能够访问同一个网页,则可以一起生成,否则第一个网址需要单独采集,本文这个网址是不满足的)
下面我们来介绍一下使用批量生成网址的步骤。
步骤一:输入第一部分的固定网址:
http://www.houyicaiji.com/?type=list&cat_id=148&page=
步骤二:点击添加参数:
步骤三:设置第一个参数,参数类型设为数字,然后对起始值、截止值和步长等参数进行配置(因为这里第一个网址修改之后不能用,所以我们设置为从2到10,步长为1,递增,数字前不补零)
我们可以在网址预览中看到最终生成的网址样式。
温馨提示:
本文仅以数字类型参数为例进行了描述,后羿采集器支持的参数类型还包括字母和时间,大家可以参考本文进行设置。
在使用批量生成网址时一定要注意是否需要关闭分页设置,如果不需要翻页就必须关闭分页设置,否则会出现大量重复数据。如下图所示:
文章评论