后羿采集器支持Webhook功能,通过使用该功能,后羿采集器可以将采集到的数据实时发布到用户的HTTP地址,用户需要自行开发Webhook接收端代码。 Webhook的设置在启动任务的设置中,具体如下图所示: 开启Webhook功能之后,采集到的数据将以JSON格式进行发送。在任务采集结束时会发送一个采集结束的事件通知。 Webhook以HTTP POST的方式发送数据到用户的HTTP地址。 HTTP Header为"Content-Type: application/json; charset=utf-8"。 用…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何创建流程图模式任务,对于新手同学我们推荐优先使用智能模式。 1、输入网址的位置: 1)在左侧工具栏新建流程图模式任务 2)在首页输入框下的左侧开始采集按钮新建流程图模式任务 从上述两个的位置点击之后会进入流程图模式任务创建的设置界面,我们可以在此进行更多的新建任务设置。 2、创建流程图模式任务的设置 1)选择任务创建的分组 我们可以在这里选择把任务创建在哪个分组下,此外,也可以在左侧任务栏右击任务选择分组。 2)选择任务创建的名称 我们可以选择自定义输入方式,也可以按照任务分组名称+编号的方…

2023年9月5日 0条评论 75点热度 0人点赞 365crawadmin 阅读全文

如果您已经看完了后羿采集器流程图模式的第一个采集案例,想必您对其已经有了初步的了解,这里我们再来详细介绍一下流程图模式的基本操作流程。 1、输入正确的网址 流程图模式对输入网址的要求没有智能模式那么严格,但是您仍然需要按照软件的要求输入正确的网址格式。 后羿采集器支持单网址和多网址采集,支持手动输入网址、从本地文件导入网址及批量生成网址。 更多详情内容,请参考以下教程: 如何创建流程图模式任务 2、预登录 在数据采集过程中,我们有时候会遇到需要登录才能查看内容的网页,这时我们需要用到预登录功能,登录成功之后就能进行…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,本文将为大家介绍如何采集这一类的数据。 第一步:采集列表页数据 输入网址后,软件会自动识别列表上的数据,用户可以在这个基础上对字段进行设置。 点此了解更多如何采集列表页数据 第二步:使用深入采集进入详情页 采集完列表页上的数据后,我们需要采集详情页上的数据,可以选中链接使用深入采集,也可以点击链接直接进入详情页。 点此了解如何使用深入采集功能。 第三步:点击页面上按钮获得采集字段 当遇到详情页信息需要点击才会显示的情况,我们可以…

2023年9月5日 0条评论 80点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,如果遇到需要登录才能查看内容的网页,我们可以按照如下图所示的步骤进行预登陆,然后顺利完成数据采集。 具体步骤如下: 第一步:创建智能模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成” 如下图所示:   温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

流程图模式是后羿采集器团队为了满足用户丰富的个性化数据采集需求而研发的操作模式。 该模式不仅支持可视化的网页点选操作,完全符合人工浏览网页的思维方式,用户只需要打开被采集的网站,用鼠标点击几下就能自动生成复杂的数据采集规则; 同时支持积木式采集组件拼接操作,通过将复杂的采集编码流程进行可视化封装,让开发采集规则就像搭积木一样简单,零基础也能很快上手。 下面给大家演示一下流程图模式的基本操作流程。

2023年9月5日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

终端标识可以理解为您当前电脑中所安装的后羿采集器软件的身份证号码,默认生成的终端标识由您的“电脑名称+随机数”构成,您也可以在设置中心进行修改。 终端标识主要用于同一个账号在多台电脑上登录的场景,当您的账号在多台电脑上登录时,如果您同时登录的电脑数量超过了套餐限制(后羿采集器的账号可以在任意一台电脑上登录,但是同时登录的电脑数量存在限制,具体可以参考官网价格页面的介绍),软件会显示出所有正在登录中的终端标识,并提示您需要断开其中一个正在登录中的终端,然后才能进行登录操作。 终端标识和账号存在关联,因此同一个账号在不…

2023年9月5日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持图像识别功能,可以识别图像中的文字,但是并非所有图像都可以识别,大家可以先进行测试,如果测试不成功,说明你遇到的情况暂时无法支持。 我们以智能模式中采集后羿采集器官网教程页为例,流程图模式的设置方式与此相同。 如下图所示,我们可以看到标题字段中有很多乱码,这是因为我们在网页中使用了图片替代了文字,这些图片在网页中和其他文字看起来是一样的,但是采集下来时就会变成乱码。 此时我们可以右击字段,然后在识别格式中选择“内容乱码”。 之后在字段上会出现“识别”按钮。 点击“识别”按钮,软件会进行图像识别,识别结…

2023年9月5日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文
123457