在采集数据的过程中,我们经常会遇到需要输入验证码的情况,后羿采集器支持手动输入功能。 需要输入验证码的情况一般可以分为以下两种: 第一种,验证码出现在固定网页,例如注册/登录页面的验证码 第二种,验证码出现在不固定的网页,例如在采集过程中会跳出需要输入验证码的页面 这两种场景中,验证码的设置略有区别。 针对第一种场景,我们可以在一开始编辑采集规则时就进行设置; 针对第二种场景,我们需要先将采集规则运行起来,一直到网站弹出验证码提示了,此时我们停止采集,然后重新打开规则编辑界面进行验证码识别的设置。 本文主要介绍第一…

2023年9月5日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

启动任务设置完毕之后,我们点击“启动”按钮。 然后会打开任务运行界面,在这个界面上我们可以查看网页、查看运行日志、查看采集结果、开启自动导出、开启加速、暂停任务或者停止任务。 1、查看网页 点击页面上的“查看网页”按钮,可以在新打开的窗口中查看当前正在采集的网页。 在这个界面中,我们点击右上角的保存按钮,可以把这个网页保存下来,一般用于需要保存当前网页来排查遇到的问题。 2、运行日志 点击“运行日志”可以查看当前任务的运行状态。 3、查看采集结果 点击“数据”可以预览当前任务的部分采集结果。 4、暂停 点击“暂停”…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

这个说起来可就厉害了! 智能模式是后羿采集器团队基于人工智能技术研发的新一代采集模式。 该模式操作极其简单,只需要输入被采集的网址就能智能识别出网页中的内容,无需配置任何采集规则就能够完成数据的采集。我们来简单看一下是怎么操作的。 智能模式支持单个网址的采集和多个网址的批量采集,支持从本地TXT文档中批量导入网址,并且支持批量生成网址。 智能模式主要针对单页类型网页、列表类型网页和列表+详情页类型的网页,在批量采集多个网址时,建议只输入同一种类型的网页,例如全部都是列表类型或全部都是内容类型。 不同类型的网页建议创…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持自动导出功能,通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务运行结束后手动导出数据。 开启自动导出有两种方式: 第一种是直接在启动任务时进行设置,这种设置方式可以对同一个采集任务添加多个自动导出。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“自动导出”选项可以切换到自动导出设置界面。 勾选“自动导出”功能,点击“新建自动导出”按钮,新建自动导出的设置。 点击这个按钮后,软件会打开导出设置界面,在该界面中我们可以选择具体的导出方式。后…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

用户在采集数据时,有时候需要启动很多任务进行采集,这时候如果要一个个启动任务就会花费比较多的时间。为了给用户更好的体验,我们开发出了组批量启动功能,大家只要选中组就可以批量启动任务了。 大家可以把需要采集的任务放在一个分组中,然后展开分组,点击顺序启动组内任务,如下图所示: 注意,需要把组展开才能够批量启动组内任务,未打开分组使用此功能会出现如下报错: 按组批量启动任务后,会跳转到启动页面,此时在启动页面进行的所有设置会应用给组内的每一个任务。 点此了解更多关于采集任务设置的内容。 注意一点,如果在此时勾选加速引擎…

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

在设置采集任务的过程中,用户会遇到多种多样的网页,一般可以分为三种:一种是直接有分页按钮的网页,一种是瀑布流类型的网页,还有一种是分页+瀑布流类型的网页。 1. 页面中有可点击的分页按钮(例如“下一页”或“点击加载更多”) 这种网页是最常见的一种分页类型,在提取列表元素后,软件会提示是否需要自动翻页采集。如果用户只采集单页数据,则不需要设置分页循环。 在点击需要设置分页循环之后,软件会提示所识别到的分页是否正确,如果点击正确按钮,软件会配置好循环组件。 具体如下动图所示: 如果软件识别的分页按钮不够准确,用户可以点…

2023年9月5日 0条评论 24点热度 0人点赞 365crawadmin 阅读全文

这个就更厉害了! 流程图模式是后羿采集器团队为了满足用户丰富的个性化数据采集需求而研发的操作模式。 流程图模式支持可视化的网页点选操作,完全符合人工浏览网页的思维方式,用户只需要打开被采集的网站,用鼠标点击几下就能自动生成复杂的数据采集规则。   流程图模式可以采集目前互联网上99%的网页数据。流程图模式不仅支持单个网址的采集和多个网址的批量采集,支持从本地文件批量导入网址,而且还支持参数网址批量生成。  点此进一步了解流程图模式的使用方法。

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

如果您已经看完了后羿采集器智能模式的第一个采集案例,想必您对其已经有了初步的了解,这里我们再来详细介绍一下智能模式的基本操作流程。 1、输入正确的网址 输入了正确的网址,这个采集任务就成功了一半。 后羿采集器支持单网址和多网址采集,支持从本地TXT文件中导入网址,也支持参数网址批量生成。 更多详情内容,请参考以下教程: ※如何创建智能模式任务 2、选择页面类型及设置分页 在智能模式下,后羿采集器会自动识别网页,如果出现识别不准确的情况,此时您可以先手动自动识别一下,如果手动自动识别还不起效果,您可以手动点选列表,从…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,下面我们给大家介绍一下如何采集这一类的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:使用深入采集进入详情页 完成列表页数据采集后,如果想要采集详情页上的数据,可以点击深入采集按钮或者点击列表识别结果中任意一个标题,然后在左侧操作栏内点击“依次点击全部元素”按钮,跳转到详情页进行采集。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:提取详情页数据 跳转到详情页之后,点击…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 1)软件可以准确识别列表的情况 点击列表中的任一行,软件会自动识别出列表并给出提示,选择“提取列表中的数据”。 软件会自动识别当前页面的分页按钮,我们可以根据提示设置自动翻页操作。 更多详情内容,请参考以下教程: 如何设置分页

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文
134567