在采集的过程中,我们可能会遇到异常停止的情况,如果我们希望再一次启动任务时从上一次停止的位置开始采集,我们需要使用断点续采的功能。 由于各种因素,自动断点续采这个功能现在暂时还无法实现,目前断点续采有两种方案: 1、通过去重功能来进行断点续采 直接在启动任务时进行数据去重设置,选择“当所有字段都重复时,跳过继续采集”。 该方案设置简单,但是效率较低,设置之后任务仍然会从第一页开始采集,然后逐个跳过所有已经采集到的数据。 2、通过修改采集范围、修改网址或添加预操作来进行断点续采 当任务停止时,软件的停止界面上会记录当…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

本文主要为大家介绍使用后羿采集器的流程图模式,采集网站上多关键词的数据。 步骤一:新建采集任务 1、复制官网的网页地址(需要搜索结果页的网址,而不是首页的网址) 更多详情内容,请参考以下教程: 如何正确地输入网址。

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持自动导出功能,通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务运行结束后手动导出数据。 开启自动导出有两种方式: 第一种是直接在启动任务时进行设置,这种设置方式可以对同一个采集任务添加多个自动导出。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“自动导出”选项可以切换到自动导出设置界面。 勾选“自动导出”功能,点击“新建自动导出”按钮,新建自动导出的设置。 点击这个按钮后,软件会打开导出设置界面,在该界面中我们可以选择具体的导出方式。后…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

通过使用后羿采集器的API接口功能,您可以通过发送HTTP请求来控制采集任务。 可以支持的功能包括:获取任务列表、获取任务状态、启动任务、停止任务、删除任务、复制任务和清空任务数据。 API接口在软件的设置中心启动,如下图所示:

2023年9月5日 0条评论 93点热度 0人点赞 365crawadmin 阅读全文

后羿采集器目前已经支持“邮件提醒”功能,开启邮件提醒功能后,当用户的采集任务在运行过程中遇到需要“输入验证码”或“登录网站”情况时,后羿采集器会通过邮件提醒的方式通知用户。 注意:后羿采集器“邮件提醒”功能仅限企业标准版及以上套餐使用。 下面介绍下使用后羿采集器“邮件提醒”功能的具体操作步骤: 1.配置邮件推送服务 “邮件提醒”功能使用的前提是:配置好邮件推送服务参数。意思是,用户需要使用一个邮箱来作为推送提醒邮件的中转站,所有的提醒邮件都会通过这个邮箱来进行推送的,下面以163邮箱为例进行说明。 首先,在163邮…

2023年9月5日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文

一、文件下载功能简介 后羿采集器支持在采集的过程中下载文件,文件类型包括:图片、音频、视频、文档、其他文件,启用文件下载功能的位置如下图所示: 需要注意的是,此处的设置只是针对文件下载功能的开启,所有的文件下载都需要在采集字段中设置对应的下载链接或者下载按钮。 在下载文件时,软件支持对文件下载路径进行修改,你可以按照下图进行设置: 在下载文件时,软件支持按照一定的规则创建独立的文件夹用来存放文件,规则包括按照文件类型、采集日期、任务名称或者按照字段值给文件夹命名,如下图所示: 在下载文件时,软件支持按照一定的规则重…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持Webhook功能,通过使用该功能,后羿采集器可以将采集到的数据实时发布到用户的HTTP地址,用户需要自行开发Webhook接收端代码。 Webhook的设置在启动任务的设置中,具体如下图所示: 开启Webhook功能之后,采集到的数据将以JSON格式进行发送。在任务采集结束时会发送一个采集结束的事件通知。 Webhook以HTTP POST的方式发送数据到用户的HTTP地址。 HTTP Header为"Content-Type: application/json; charset=utf-8"。 用…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

在采集任务的设置中,经常能遇到网页没有翻页按钮或者网站有严格的防采集限制,不能用点击下一页按钮的形式进行翻页的情况。这个时候我们就可以使用后羿采集器的流程图模式,利用批量输入页码的方式翻页。 步骤一:新建采集任务 1、复制目标网站的网址 【温馨提示】需要搜索结果页的网址,而不是首页的网址。 点此了解关于如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上直接新建采集任务。 点此了解如何导入和导出采集任务。 步骤二:配置采集任务 1、设置批量输入页码的循环组件 在流程图模式输入网址新建任务之后,我们点击页…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

流程图任务是由各种组件构成的,每种组件对应不同的操作,下面我们针对每个组件及其对应的设置参数进行详细的介绍。 1、打开网页 打开网页组件的作用是打开网页,流程图任务创建时会自动生成一个打开网页组件,该组件作为任务的第一个组件,不能被拖动或者删除。 在右侧的组件设置窗口中,点击右侧任务网址可以进行编辑,此处的编辑和编辑流程图任务网址是相同的操作。 当打开网页组件不处于任务起始位置时,设置如下图所示,选择自定义选项可以输入自定义的网址。 2、点击 点击组件的作用是点击页面中的元素,它的设置如下图所示: 通常该组件会在点…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文

终端标识可以理解为您当前电脑中所安装的后羿采集器软件的身份证号码,默认生成的终端标识由您的“电脑名称+随机数”构成,您也可以在设置中心进行修改。 终端标识主要用于同一个账号在多台电脑上登录的场景,当您的账号在多台电脑上登录时,如果您同时登录的电脑数量超过了套餐限制(后羿采集器的账号可以在任意一台电脑上登录,但是同时登录的电脑数量存在限制,具体可以参考官网价格页面的介绍),软件会显示出所有正在登录中的终端标识,并提示您需要断开其中一个正在登录中的终端,然后才能进行登录操作。 终端标识和账号存在关联,因此同一个账号在不…

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文