增量采集功能说明

2023年9月5日 30点热度 0人点赞 0条评论

在采集数据过程中,我们可能有这样的:第一次采集所有数据,需要再采集的时候只需要采集网络就添加的数据,这时候就可以使用八爪鱼的【增量采集】功能。

 

【增量采集】通过对比URL来实现增量数据的采集:

将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。

 

一、功能说明

在任务配置页面,点击【采集配置】按钮,进入配置页面:

 

进入设置页面后,可以看到:

【启用增量采集】的选项。同时提供两种网址对比方式:

【对比整个URL,包含所有参数】:当前整条网址与之前采集过的网址做对比,如果是完整的网址,则跳过不采集。

【仅对比URL及以下参数】:对比URL中的特定参数,如果指定参数相同,则跳过不采集。

勾选【启用增量采集】后,默认使用【对比整个URL】,然后点击【保存配置】,即可对该任务启用增量采集。

 

特别说明:

a. 什么是网址参数?网页链接中&和=之间的为参数,下面有【tid】和【page】两个参数。

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论