1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 具体步骤如下: 第一步:修改页面类型为“单页类型”(请参考此教程 →_→ 如何设置页面类型) 第二步:设置分页(请参考此教程 →_→如何设置分页) 第三步:添加字段 关于采集字段的更多设置请参考这篇教程:如何对采集字段进行配置
1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 具体步骤如下: 第一步:修改页面类型为“单页类型”(请参考此教程 →_→ 如何设置页面类型) 第二步:设置分页(请参考此教程 →_→如何设置分页) 第三步:添加字段 关于采集字段的更多设置请参考这篇教程:如何对采集字段进行配置
用户在采集数据时,有时候需要启动很多任务进行采集,这时候如果要一个个启动任务就会花费比较多的时间。为了给用户更好的体验,我们开发出了组批量启动功能,大家只要选中组就可以批量启动任务了。 大家可以把需要采集的任务放在一个分组中,然后展开分组,点击顺序启动组内任务,如下图所示: 注意,需要把组展开才能够批量启动组内任务,未打开分组使用此功能会出现如下报错: 按组批量启动任务后,会跳转到启动页面,此时在启动页面进行的所有设置会应用给组内的每一个任务。 点此了解更多关于采集任务设置的内容。 注意一点,如果在此时勾选加速引擎…
后羿采集器目前已经支持“邮件提醒”功能,开启邮件提醒功能后,当用户的采集任务在运行过程中遇到需要“输入验证码”或“登录网站”情况时,后羿采集器会通过邮件提醒的方式通知用户。 注意:后羿采集器“邮件提醒”功能仅限企业标准版及以上套餐使用。 下面介绍下使用后羿采集器“邮件提醒”功能的具体操作步骤: 1.配置邮件推送服务 “邮件提醒”功能使用的前提是:配置好邮件推送服务参数。意思是,用户需要使用一个邮箱来作为推送提醒邮件的中转站,所有的提醒邮件都会通过这个邮箱来进行推送的,下面以163邮箱为例进行说明。 首先,在163邮…
智能模式是后羿采集器团队基于人工智能技术研发的新一代采集模式,操作极其简单,只需要输入被采集的网址就能智能识别出网页中的内容和分页按钮,无需配置采集规则就能够完成数据的采集。 本文以后羿采集器官网问答社区为例,为大家演示智能模式的使用方法,更多详细的介绍请大家参考智能模式的系列课程。
在采集的过程中,我们可能会遇到异常停止的情况,如果我们希望再一次启动任务时从上一次停止的位置开始采集,我们需要使用断点续采的功能。 由于各种因素,自动断点续采这个功能现在暂时还无法实现,目前断点续采有两种方案: 1、通过去重功能来进行断点续采 直接在启动任务时进行数据去重设置,选择“当所有字段都重复时,跳过继续采集”。 该方案设置简单,但是效率较低,设置之后任务仍然会从第一页开始采集,然后逐个跳过所有已经采集到的数据。 2、通过修改采集范围、修改网址或添加预操作来进行断点续采 当任务停止时,软件的停止界面上会记录当…
在数据采集的时候,经常会需要采集详情页链接。本文通过三种方式来讲解如何利用我们后羿采集器的智能模式采集到详情页的链接,流程图模式同理。 方法一:通过自动识别获取 后羿采集器的智能模式会自动识别列表,一般网站在识别到列表的同时,就会将详情页的链接一并识别出来。 【温馨提示】如果自动识别不准确,也可以用手动点选的方式进行列表识别。 点此深入了解如何识别列表 方法二:通过深入采集获取 在软件的列表识别过程中,有时候会遇到无法识别到详情页链接的情况。这时候我们就能用深入采集功能进入详情页,采集详情页的链接。 1.在识别到列…
在后羿采集器的智能模式下,我们在智能识别窗口可以对浏览器的模式进行设置。如下图所示: 后羿采集器支持两种浏览器模式: (1)电脑浏览器模式 (2)手机浏览器模式 那么这两种该如何选择呢? 如果某些网页的内容在电脑浏览器和手机浏览器模式下会有区别,而且你需要采集的数据在这两种浏览器模式下的某一种中才有,那么你可以切换到相应的浏览器模式,然后再开始采集。
通过使用后羿采集器的API接口功能,您可以通过发送HTTP请求来控制采集任务。 可以支持的功能包括:获取任务列表、获取任务状态、启动任务、停止任务、删除任务、复制任务和清空任务数据。 API接口在软件的设置中心启动,如下图所示:
本文主要为大家介绍使用后羿采集器的流程图模式,通过输入组合文本的形式采集数据。 【温馨提示】该功能的使用需要企业标准版套餐,套餐详情请参考官网价格页面的套餐介绍。 步骤一:新建采集任务 1、复制网页地址,本次以帮助中心的链接为例。 更多详情内容,请参考以下教程: 如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上新建采集任务,也可以直接导入已经创建好的任务。 更多详情内容,请参考以下教程: 如何导入和导出采集规则。 步骤二:配置采集任务 1、设置输入组合文本任务 在流程图模式输入网址新建任务之后,我们…
1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 在智能模式下,后羿采集器默认按照列表类型的网页进行智能识别,并完成页面列表元素内部所有字段的自动识别和采集。 如果后羿采集器自动识别的结果不符合您的需求,您可以手动点选列表。 (1)软件自动识别列表元素内部字段并进行采集 (2)手动点选列表 关于采集字段的设置可以看这里→_→ 如何对采集字段进行配置