在数据采集过程中,我们可能有这样的需求:第一次采集所有数据,后续再采集的时候只需要采集网页上新增的数据。
自动采集新增数据的需求,可以通过八爪鱼的定时云采集配合多种策略实现,以下将结合实例详细讲解。
注意:定时云采集是八爪鱼采集器团队版及以上版本才具有的功能(旧套餐旗舰版及以上版本),详情请看 版本介绍 。
实例网址:http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html
采集需求:定时采集广东省政府采购网列表中新增的公告标题、标题链接和发布时间字段。
方法一:触发器 + 定时云采集
触发器:支持对【时间】字段设置条件,满足条件才触发采集,例如设置:【发布时间】早于【当天0点的前一天】就丢弃本条数据,就能实现 采集前一天更新的数据
定时云采集:支持设置整点的定时采集,例如设置:每天0点定时启动采集
以上两者结合,就能实现 每天0点定时采集前一天更新的数据
触发器具体设置:
设置提取列表页的公告标题、标题链接和时间这个几个字段。
点击【提取数据】-【高级设置】进入设置页面,点击【+ 新增触发】,设置【发布时间】早于【自定义】,点击,进入编辑时间配置页面,选择【当天采集0点】减少【1天】,得到以当前时间作为示例:2021-10-18 00:00:00,点击【确定】就执行操作【丢弃本条数据】,点击【确定】。具体的操作可以参考触发器功能说明的教程。
注:
a. 触发器的时间默认格式为xxxx-xx-xx hh:mm:ss,如果不是的话需要用格式化将【发布时间】统一格式化成默认格式2020-11-24 00:00:00,具体可参考 字段格式化的教程 。
像示例网址中的【发布时间】为:2020-11-24 17:45,则需要【添加后缀】:00,最后得到【替换结果】为:2020-11-24 17:45:00。
文章评论