通过使用后羿采集器的API接口功能,您可以通过发送HTTP请求来控制采集任务。 可以支持的功能包括:获取任务列表、获取任务状态、启动任务、停止任务、删除任务、复制任务和清空任务数据。 API接口在软件的设置中心启动,如下图所示:

2023年9月5日 0条评论 76点热度 0人点赞 365crawadmin 阅读全文

不同于智能模式可以直接设置采集范围,流程图模式采集范围的设置比较复杂一些。 1、只设置结束页面,不设置开始页面的采集范围设置 这种设置比较简单,不管是有分页按钮的网页、瀑布流加载的网页还是瀑布流+分页加载的网页,都只需要选中翻页循环设置,然后在翻页次数那里设置自定义次数,用户想要在哪个页数停止,就选择填相应的页数。 1)分页按钮 2)瀑布流分页 3)瀑布流+分页按钮 2、设置开始采集页面,不设置结束页面的采集范围设置 1)网址会随着页码的变动而变动的网站 用户可以直接复制新的开始采集的网址,在页面上修改网址。 2)…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

在智能模式中,后羿采集器会默认按照列表类型进行识别,如果您输入网页属于单页类型,此时的页面类型识别结果肯定是不正确的;或者由于网页加载速度等其他原因,即使您输入的网页是列表类型,也可能出现识别失败的情况,此时您可以手动设置页面类型。 关于单页和列表页的介绍请参考以下教程: 什么是单页类型的网页?如何采集? 什么是列表类型的网页?如何采集? 分页设置的过程如下: “页面类型”的设置菜单如下图所示。 如果是单页类型的网页,您可以直接选择“单页类型”。 如果是列表类型的网页,您可以点击“自动识别”,软件会重新尝试识别列表…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

在流程图模式下,提取数据组件会将用户需要的数据提取出来,用户可以在这个组件内对采集字段进行设置。提取数据用于提取采集网页中的数据,该组件既可以单独使用也可以和循环组件或者判断组件搭配使用。单独使用时适合提取单页上的数据,搭配使用时,适合提取所有页面上的数据。 具体设置介绍如下: 1、修改字段名称 2、合并字段 合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持Webhook功能,通过使用该功能,后羿采集器可以将采集到的数据实时发布到用户的HTTP地址,用户需要自行开发Webhook接收端代码。 Webhook的设置在启动任务的设置中,具体如下图所示: 开启Webhook功能之后,采集到的数据将以JSON格式进行发送。在任务采集结束时会发送一个采集结束的事件通知。 Webhook以HTTP POST的方式发送数据到用户的HTTP地址。 HTTP Header为"Content-Type: application/json; charset=utf-8"。 用…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何创建流程图模式任务,对于新手同学我们推荐优先使用智能模式。 1、输入网址的位置: 1)在左侧工具栏新建流程图模式任务 2)在首页输入框下的左侧开始采集按钮新建流程图模式任务 从上述两个的位置点击之后会进入流程图模式任务创建的设置界面,我们可以在此进行更多的新建任务设置。 2、创建流程图模式任务的设置 1)选择任务创建的分组 我们可以在这里选择把任务创建在哪个分组下,此外,也可以在左侧任务栏右击任务选择分组。 2)选择任务创建的名称 我们可以选择自定义输入方式,也可以按照任务分组名称+编号的方…

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

如果您已经看完了后羿采集器流程图模式的第一个采集案例,想必您对其已经有了初步的了解,这里我们再来详细介绍一下流程图模式的基本操作流程。 1、输入正确的网址 流程图模式对输入网址的要求没有智能模式那么严格,但是您仍然需要按照软件的要求输入正确的网址格式。 后羿采集器支持单网址和多网址采集,支持手动输入网址、从本地文件导入网址及批量生成网址。 更多详情内容,请参考以下教程: 如何创建流程图模式任务 2、预登录 在数据采集过程中,我们有时候会遇到需要登录才能查看内容的网页,这时我们需要用到预登录功能,登录成功之后就能进行…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,本文将为大家介绍如何采集这一类的数据。 第一步:采集列表页数据 输入网址后,软件会自动识别列表上的数据,用户可以在这个基础上对字段进行设置。 点此了解更多如何采集列表页数据 第二步:使用深入采集进入详情页 采集完列表页上的数据后,我们需要采集详情页上的数据,可以选中链接使用深入采集,也可以点击链接直接进入详情页。 点此了解如何使用深入采集功能。 第三步:点击页面上按钮获得采集字段 当遇到详情页信息需要点击才会显示的情况,我们可以…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文
123457