本文将简单说明如何使用后羿采集器的流程图模式通过设置依次点击来采集详情页的数据。 1.复制目标网站链接。
本文主要为大家介绍使用后羿采集器的流程图模式,采集网站上多关键词的数据。 步骤一:新建采集任务 1、复制官网的网页地址(需要搜索结果页的网址,而不是首页的网址) 更多详情内容,请参考以下教程: 如何正确地输入网址。
后羿采集器的定时采集功能是一个高级功能,用户通过使用该功能,可以给采集任务设置一个固定的启动和停止时间点,并且周期性地按照这个时间点进行数据采集。 点击右下角“开始采集”图标,可以进行定时采集功能的设置。 1、循环采集 循环采集适用于不间断采集任务的场景,是指任务采集结束之后按照设置的时间间隔开始下一次的任务采集,循环往复。用户可以设置任务间隔时间,甚至可以设置任务整体采集时长,软件配置了多种格式供用户选择,用户可以按照自己需求进行设置。 1)间隔时间 是指两次任务运行的间隔时间,用户可以选择软件设置好的间隔时间,…
在采集的过程中,我们可能会遇到异常停止的情况,如果我们希望再一次启动任务时从上一次停止的位置开始采集,我们需要使用断点续采的功能。 由于各种因素,自动断点续采这个功能现在暂时还无法实现,目前断点续采有两种方案: 1、通过去重功能来进行断点续采 直接在启动任务时进行数据去重设置,选择“当所有字段都重复时,跳过继续采集”。 该方案设置简单,但是效率较低,设置之后任务仍然会从第一页开始采集,然后逐个跳过所有已经采集到的数据。 2、通过修改采集范围、修改网址或添加预操作来进行断点续采 当任务停止时,软件的停止界面上会记录当…
后羿采集器目前已经支持“邮件提醒”功能,开启邮件提醒功能后,当用户的采集任务在运行过程中遇到需要“输入验证码”或“登录网站”情况时,后羿采集器会通过邮件提醒的方式通知用户。 注意:后羿采集器“邮件提醒”功能仅限企业标准版及以上套餐使用。 下面介绍下使用后羿采集器“邮件提醒”功能的具体操作步骤: 1.配置邮件推送服务 “邮件提醒”功能使用的前提是:配置好邮件推送服务参数。意思是,用户需要使用一个邮箱来作为推送提醒邮件的中转站,所有的提醒邮件都会通过这个邮箱来进行推送的,下面以163邮箱为例进行说明。 首先,在163邮…
后羿采集器支持自动导出功能,通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务运行结束后手动导出数据。 开启自动导出有两种方式: 第一种是直接在启动任务时进行设置,这种设置方式可以对同一个采集任务添加多个自动导出。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“自动导出”选项可以切换到自动导出设置界面。 勾选“自动导出”功能,点击“新建自动导出”按钮,新建自动导出的设置。 点击这个按钮后,软件会打开导出设置界面,在该界面中我们可以选择具体的导出方式。后…
通过使用后羿采集器的API接口功能,您可以通过发送HTTP请求来控制采集任务。 可以支持的功能包括:获取任务列表、获取任务状态、启动任务、停止任务、删除任务、复制任务和清空任务数据。 API接口在软件的设置中心启动,如下图所示:
在采集任务的设置中,经常能遇到网页没有翻页按钮或者网站有严格的防采集限制,不能用点击下一页按钮的形式进行翻页的情况。这个时候我们就可以使用后羿采集器的流程图模式,利用批量输入页码的方式翻页。 步骤一:新建采集任务 1、复制目标网站的网址 【温馨提示】需要搜索结果页的网址,而不是首页的网址。 点此了解关于如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上直接新建采集任务。 点此了解如何导入和导出采集任务。 步骤二:配置采集任务 1、设置批量输入页码的循环组件 在流程图模式输入网址新建任务之后,我们点击页…
一、文件下载功能简介 后羿采集器支持在采集的过程中下载文件,文件类型包括:图片、音频、视频、文档、其他文件,启用文件下载功能的位置如下图所示: 需要注意的是,此处的设置只是针对文件下载功能的开启,所有的文件下载都需要在采集字段中设置对应的下载链接或者下载按钮。 在下载文件时,软件支持对文件下载路径进行修改,你可以按照下图进行设置: 在下载文件时,软件支持按照一定的规则创建独立的文件夹用来存放文件,规则包括按照文件类型、采集日期、任务名称或者按照字段值给文件夹命名,如下图所示: 在下载文件时,软件支持按照一定的规则重…
后羿采集器支持Webhook功能,通过使用该功能,后羿采集器可以将采集到的数据实时发布到用户的HTTP地址,用户需要自行开发Webhook接收端代码。 Webhook的设置在启动任务的设置中,具体如下图所示: 开启Webhook功能之后,采集到的数据将以JSON格式进行发送。在任务采集结束时会发送一个采集结束的事件通知。 Webhook以HTTP POST的方式发送数据到用户的HTTP地址。 HTTP Header为"Content-Type: application/json; charset=utf-8"。 用…