数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。
在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。
1、去重条件
1)所有字段都重复
勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。
需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大致相同,但是都会判定为非重复的数据。
2)某些字段重复
勾选此去重条件,软件可以针对某一个或者某几个字段进行去重。
按照字段去重可以设置多个字段,点击“+”或者“—”符号进行设置,多个字段之间的关系是并且关系,即如果设置了两个字段去重,则需要满足字段1和2与已保存的某一条数据中的两个字段都相同,则判定该数据为一条重复数据。
2、执行动作
满足去重条件时,我们可以设置在这个去重条件下是跳过继续采集,还是停止任务。
文章评论