后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示: 批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况: 第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。 第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过…

2023年9月5日 0条评论 66点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的定时采集功能是一个高级功能,用户通过使用该功能,可以给采集任务设置一个固定的启动和停止时间点,并且周期性地按照这个时间点进行数据采集。 点击右下角“开始采集”图标,可以进行定时采集功能的设置。 1、循环采集 循环采集适用于不间断采集任务的场景,是指任务采集结束之后按照设置的时间间隔开始下一次的任务采集,循环往复。用户可以设置任务间隔时间,甚至可以设置任务整体采集时长,软件配置了多种格式供用户选择,用户可以按照自己需求进行设置。 1)间隔时间 是指两次任务运行的间隔时间,用户可以选择软件设置好的间隔时间,…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

在采集数据的过程中,我们经常会遇到需要输入验证码的情况,后羿采集器支持手动输入功能。 需要输入验证码的情况一般可以分为以下两种: 第一种,验证码出现在固定网页,例如注册/登录页面的验证码 第二种,验证码出现在不固定的网页,例如在采集过程中会跳出需要输入验证码的页面 这两种场景中,验证码的设置略有区别。 针对第一种场景,我们可以在一开始编辑采集规则时就进行设置; 针对第二种场景,我们需要先将采集规则运行起来,一直到网站弹出验证码提示了,此时我们停止采集,然后重新打开规则编辑界面进行验证码识别的设置。 本文主要介绍第一…

2023年9月5日 0条评论 76点热度 0人点赞 365crawadmin 阅读全文

启动任务设置完毕之后,我们点击“启动”按钮。 然后会打开任务运行界面,在这个界面上我们可以查看网页、查看运行日志、查看采集结果、开启自动导出、开启加速、暂停任务或者停止任务。 1、查看网页 点击页面上的“查看网页”按钮,可以在新打开的窗口中查看当前正在采集的网页。 在这个界面中,我们点击右上角的保存按钮,可以把这个网页保存下来,一般用于需要保存当前网页来排查遇到的问题。 2、运行日志 点击“运行日志”可以查看当前任务的运行状态。 3、查看采集结果 点击“数据”可以预览当前任务的部分采集结果。 4、暂停 点击“暂停”…

2023年9月5日 0条评论 68点热度 0人点赞 365crawadmin 阅读全文

这个说起来可就厉害了! 智能模式是后羿采集器团队基于人工智能技术研发的新一代采集模式。 该模式操作极其简单,只需要输入被采集的网址就能智能识别出网页中的内容,无需配置任何采集规则就能够完成数据的采集。我们来简单看一下是怎么操作的。 智能模式支持单个网址的采集和多个网址的批量采集,支持从本地TXT文档中批量导入网址,并且支持批量生成网址。 智能模式主要针对单页类型网页、列表类型网页和列表+详情页类型的网页,在批量采集多个网址时,建议只输入同一种类型的网页,例如全部都是列表类型或全部都是内容类型。 不同类型的网页建议创…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持自动导出功能,通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务运行结束后手动导出数据。 开启自动导出有两种方式: 第一种是直接在启动任务时进行设置,这种设置方式可以对同一个采集任务添加多个自动导出。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“自动导出”选项可以切换到自动导出设置界面。 勾选“自动导出”功能,点击“新建自动导出”按钮,新建自动导出的设置。 点击这个按钮后,软件会打开导出设置界面,在该界面中我们可以选择具体的导出方式。后…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

用户在采集数据时,有时候需要启动很多任务进行采集,这时候如果要一个个启动任务就会花费比较多的时间。为了给用户更好的体验,我们开发出了组批量启动功能,大家只要选中组就可以批量启动任务了。 大家可以把需要采集的任务放在一个分组中,然后展开分组,点击顺序启动组内任务,如下图所示: 注意,需要把组展开才能够批量启动组内任务,未打开分组使用此功能会出现如下报错: 按组批量启动任务后,会跳转到启动页面,此时在启动页面进行的所有设置会应用给组内的每一个任务。 点此了解更多关于采集任务设置的内容。 注意一点,如果在此时勾选加速引擎…

2023年9月5日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

在设置采集任务的过程中,用户会遇到多种多样的网页,一般可以分为三种:一种是直接有分页按钮的网页,一种是瀑布流类型的网页,还有一种是分页+瀑布流类型的网页。 1. 页面中有可点击的分页按钮(例如“下一页”或“点击加载更多”) 这种网页是最常见的一种分页类型,在提取列表元素后,软件会提示是否需要自动翻页采集。如果用户只采集单页数据,则不需要设置分页循环。 在点击需要设置分页循环之后,软件会提示所识别到的分页是否正确,如果点击正确按钮,软件会配置好循环组件。 具体如下动图所示: 如果软件识别的分页按钮不够准确,用户可以点…

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文
134567