在后羿采集器的智能模式下,我们通过以下几种方式来导出采集结果。 1、导出前台运行任务的采集结果 如果采集任务在前台运行,在任务结束后软件会弹出数据采集停止的提示框,此时我们点击“导出数据”按钮,即可导出采集数据结果。 2、导出后台运行任务的采集结果 如果采集任务在后台运行,在任务结束后,桌面右下角会弹出导出提示框,我们根据右下角任务完成的弹框提示打开查看数据界面,或者导出数据。 3、导出已经保存过的采集任务的采集结果 如果不是实时运行的采集任务,而是之前运行过的采集任务,例如我们关闭软件之后又重新打开软件,然导出一…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示: 批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况: 第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。 第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…

2023年9月5日 0条评论 37点热度 0人点赞 365crawadmin 阅读全文
134567