在采集数据过程中,我们可能有这样的:第一次采集所有数据,需要再采集的时候只需要采集网络就添加的数据,这时候就可以使用八爪鱼的【增量采集】功能。
【增量采集】通过对比URL来实现增量数据的采集:
将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。
一、功能说明
在任务配置页面,点击【采集配置】按钮,进入配置页面:
进入设置页面后,可以看到:
【启用增量采集】的选项。同时提供两种网址对比方式:
【对比整个URL,包含所有参数】:当前整条网址与之前采集过的网址做对比,如果是完整的网址,则跳过不采集。
【仅对比URL及以下参数】:对比URL中的特定参数,如果指定参数相同,则跳过不采集。
勾选【启用增量采集】后,默认使用【对比整个URL】,然后点击【保存配置】,即可对该任务启用增量采集。
特别说明:
a. 什么是网址参数?网页链接中&和=之间的为参数,下面有【tid】和【page】两个参数。
文章评论