本教程主要给大家介绍如何创建流程图模式任务,对于新手同学我们推荐优先使用智能模式。 1、输入网址的位置: 1)在左侧工具栏新建流程图模式任务 2)在首页输入框下的左侧开始采集按钮新建流程图模式任务 从上述两个的位置点击之后会进入流程图模式任务创建的设置界面,我们可以在此进行更多的新建任务设置。 2、创建流程图模式任务的设置 1)选择任务创建的分组 我们可以在这里选择把任务创建在哪个分组下,此外,也可以在左侧任务栏右击任务选择分组。 2)选择任务创建的名称 我们可以选择自定义输入方式,也可以按照任务分组名称+编号的方…

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

在采集数据的过程中,我们经常会遇到需要输入验证码的情况,后羿采集器支持手动输入功能。 需要输入验证码的情况一般可以分为以下两种: 第一种,验证码出现在固定网页,例如注册/登录页面的验证码 第二种,验证码出现在不固定的网页,例如在采集过程中会跳出需要输入验证码的页面 这两种场景中,验证码的设置略有区别。 针对第一种场景,我们可以在一开始编辑采集规则时就进行设置; 针对第二种场景,我们需要先将采集规则运行起来,一直到网站弹出验证码提示了,此时我们停止采集,然后重新打开规则编辑界面进行验证码识别的设置。 本文主要介绍第一…

2023年9月5日 0条评论 75点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的流程图模式下,如果遇到需要登录才能查看内容的网页,软件会提示我们登录,如果没有提示,我们可以按照如下图所示的步骤进行预登录。 具体包括: 第一步:创建流程图模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成”   温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。

2023年9月5日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

用户在采集数据时,有时候需要启动很多任务进行采集,这时候如果要一个个启动任务就会花费比较多的时间。为了给用户更好的体验,我们开发出了组批量启动功能,大家只要选中组就可以批量启动任务了。 大家可以把需要采集的任务放在一个分组中,然后展开分组,点击顺序启动组内任务,如下图所示: 注意,需要把组展开才能够批量启动组内任务,未打开分组使用此功能会出现如下报错: 按组批量启动任务后,会跳转到启动页面,此时在启动页面进行的所有设置会应用给组内的每一个任务。 点此了解更多关于采集任务设置的内容。 注意一点,如果在此时勾选加速引擎…

2023年9月5日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,我们通过以下几种方式来导出采集结果。 1、导出前台运行任务的采集结果 如果采集任务在前台运行,在任务结束后软件会弹出数据采集停止的提示框,此时我们点击“导出数据”按钮,即可导出采集数据结果。 2、导出后台运行任务的采集结果 如果采集任务在后台运行,在任务结束后,桌面右下角会弹出导出提示框,我们根据右下角任务完成的弹框提示打开查看数据界面,或者导出数据。 3、导出已经保存过的采集任务的采集结果 如果不是实时运行的采集任务,而是之前运行过的采集任务,例如我们关闭软件之后又重新打开软件,然导出一…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,下面我们给大家介绍一下如何采集这一类的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:使用深入采集进入详情页 完成列表页数据采集后,如果想要采集详情页上的数据,可以点击深入采集按钮或者点击列表识别结果中任意一个标题,然后在左侧操作栏内点击“依次点击全部元素”按钮,跳转到详情页进行采集。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:提取详情页数据 跳转到详情页之后,点击…

2023年9月5日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持图像识别功能,可以识别图像中的文字,但是并非所有图像都可以识别,大家可以先进行测试,如果测试不成功,说明你遇到的情况暂时无法支持。 我们以智能模式中采集后羿采集器官网教程页为例,流程图模式的设置方式与此相同。 如下图所示,我们可以看到标题字段中有很多乱码,这是因为我们在网页中使用了图片替代了文字,这些图片在网页中和其他文字看起来是一样的,但是采集下来时就会变成乱码。 此时我们可以右击字段,然后在识别格式中选择“内容乱码”。 之后在字段上会出现“识别”按钮。 点击“识别”按钮,软件会进行图像识别,识别结…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的定时采集功能是一个高级功能,用户通过使用该功能,可以给采集任务设置一个固定的启动和停止时间点,并且周期性地按照这个时间点进行数据采集。 点击右下角“开始采集”图标,可以进行定时采集功能的设置。 1、循环采集 循环采集适用于不间断采集任务的场景,是指任务采集结束之后按照设置的时间间隔开始下一次的任务采集,循环往复。用户可以设置任务间隔时间,甚至可以设置任务整体采集时长,软件配置了多种格式供用户选择,用户可以按照自己需求进行设置。 1)间隔时间 是指两次任务运行的间隔时间,用户可以选择软件设置好的间隔时间,…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文