后羿采集器支持Webhook功能,通过使用该功能,后羿采集器可以将采集到的数据实时发布到用户的HTTP地址,用户需要自行开发Webhook接收端代码。 Webhook的设置在启动任务的设置中,具体如下图所示: 开启Webhook功能之后,采集到的数据将以JSON格式进行发送。在任务采集结束时会发送一个采集结束的事件通知。 Webhook以HTTP POST的方式发送数据到用户的HTTP地址。 HTTP Header为"Content-Type: application/json; charset=utf-8"。 用…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

在采集任务的设置中,经常能遇到网页没有翻页按钮或者网站有严格的防采集限制,不能用点击下一页按钮的形式进行翻页的情况。这个时候我们就可以使用后羿采集器的流程图模式,利用批量输入页码的方式翻页。 步骤一:新建采集任务 1、复制目标网站的网址 【温馨提示】需要搜索结果页的网址,而不是首页的网址。 点此了解关于如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上直接新建采集任务。 点此了解如何导入和导出采集任务。 步骤二:配置采集任务 1、设置批量输入页码的循环组件 在流程图模式输入网址新建任务之后,我们点击页…

2023年9月5日 0条评论 37点热度 0人点赞 365crawadmin 阅读全文

流程图任务是由各种组件构成的,每种组件对应不同的操作,下面我们针对每个组件及其对应的设置参数进行详细的介绍。 1、打开网页 打开网页组件的作用是打开网页,流程图任务创建时会自动生成一个打开网页组件,该组件作为任务的第一个组件,不能被拖动或者删除。 在右侧的组件设置窗口中,点击右侧任务网址可以进行编辑,此处的编辑和编辑流程图任务网址是相同的操作。 当打开网页组件不处于任务起始位置时,设置如下图所示,选择自定义选项可以输入自定义的网址。 2、点击 点击组件的作用是点击页面中的元素,它的设置如下图所示: 通常该组件会在点…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

终端标识可以理解为您当前电脑中所安装的后羿采集器软件的身份证号码,默认生成的终端标识由您的“电脑名称+随机数”构成,您也可以在设置中心进行修改。 终端标识主要用于同一个账号在多台电脑上登录的场景,当您的账号在多台电脑上登录时,如果您同时登录的电脑数量超过了套餐限制(后羿采集器的账号可以在任意一台电脑上登录,但是同时登录的电脑数量存在限制,具体可以参考官网价格页面的介绍),软件会显示出所有正在登录中的终端标识,并提示您需要断开其中一个正在登录中的终端,然后才能进行登录操作。 终端标识和账号存在关联,因此同一个账号在不…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要采集详情页链接。本文通过三种方式来讲解如何利用我们后羿采集器的智能模式采集到详情页的链接,流程图模式同理。 方法一:通过自动识别获取 后羿采集器的智能模式会自动识别列表,一般网站在识别到列表的同时,就会将详情页的链接一并识别出来。 【温馨提示】如果自动识别不准确,也可以用手动点选的方式进行列表识别。 点此深入了解如何识别列表 方法二:通过深入采集获取 在软件的列表识别过程中,有时候会遇到无法识别到详情页链接的情况。这时候我们就能用深入采集功能进入详情页,采集详情页的链接。 1.在识别到列…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

在流程图模式下,提取数据组件会将用户需要的数据提取出来,用户可以在这个组件内对采集字段进行设置。提取数据用于提取采集网页中的数据,该组件既可以单独使用也可以和循环组件或者判断组件搭配使用。单独使用时适合提取单页上的数据,搭配使用时,适合提取所有页面上的数据。 具体设置介绍如下: 1、修改字段名称 2、合并字段 合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

在如何设置数据筛选和如何设置采集范围两篇教程中,我们分别介绍了数据筛选条件和采集停止条件的设置步骤,可以看出这两个条件使用的是同样的设置方式。 这里我们以 A 或者 (B 并且 C 并且 D)或者 E 为例给大家解释如何设置。 以数据筛选为例(请忽略字段,条件和值的设置),设置结果如下图所示: 在设置条件时,存在“组间关系”和“组内关系”两种设置,这是为了让大家能够设置条件运算的优先级。 其中“组间关系”都是“或者”,“组内关系”都是“并且”,组内的优先运算,然后再是组之间的运算。 因此,如果需要添加“或者”条件,…

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

本文主要为大家介绍使用后羿采集器的流程图模式,通过输入组合文本的形式采集数据。 【温馨提示】该功能的使用需要企业标准版套餐,套餐详情请参考官网价格页面的套餐介绍。 步骤一:新建采集任务 1、复制网页地址,本次以帮助中心的链接为例。 更多详情内容,请参考以下教程: 如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上新建采集任务,也可以直接导入已经创建好的任务。 更多详情内容,请参考以下教程: 如何导入和导出采集规则。 步骤二:配置采集任务 1、设置输入组合文本任务 在流程图模式输入网址新建任务之后,我们…

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

如果您已经看完了后羿采集器流程图模式的第一个采集案例,想必您对其已经有了初步的了解,这里我们再来详细介绍一下流程图模式的基本操作流程。 1、输入正确的网址 流程图模式对输入网址的要求没有智能模式那么严格,但是您仍然需要按照软件的要求输入正确的网址格式。 后羿采集器支持单网址和多网址采集,支持手动输入网址、从本地文件导入网址及批量生成网址。 更多详情内容,请参考以下教程: 如何创建流程图模式任务 2、预登录 在数据采集过程中,我们有时候会遇到需要登录才能查看内容的网页,这时我们需要用到预登录功能,登录成功之后就能进行…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

在编辑任务的过程中,大家有时候会遇到各种情况导致页面内容无法显示,或者会遇到验证码提示,本教程主要为大家介绍如何处理这些情况并进行采集。 1、网页中提示验证码操作 (1)手动输入验证码 输入网址之后直接弹出的验证码,此时软件会提示验证码需要输入,如下图所示: 大家可以按照软件提示进行手动输入验证码操作。 如果软件未给出提示,我们可以直接点击手动输入验证码按钮,如下图所示: 然后在弹出的窗口中进行输入验证码操作,完成后点击右下角完成按钮。   (2)重启猫,注意不是路由器 重启猫可以切换您的IP,请注意不是…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文