本文将简单说明如何使用后羿采集器的流程图模式通过设置依次点击来采集详情页的数据。 1.复制目标网站链接。
在后羿采集器的流程图模式下,我们在识别窗口可以对浏览器的模式进行设置。如下图所示: 后羿采集器支持两种浏览器模式: (1)电脑浏览器模式 (2)手机浏览器模式 那么这两种该如何选择呢? 首先电脑浏览器模式和手机浏览器模式的区别在于,某些网页的内容在电脑浏览器和手机浏览器模式下会有区别,如果你需要采集的数据在这两种浏览器模式下的某一种中才有,那么你可以切换到相应的浏览器模式,然后再开始采集。
1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 1)软件可以准确识别列表的情况 点击列表中的任一行,软件会自动识别出列表并给出提示,选择“提取列表中的数据”。 软件会自动识别当前页面的分页按钮,我们可以根据提示设置自动翻页操作。 更多详情内容,请参考以下教程: 如何设置分页
后羿采集器的加速引擎功能可以对采集任务进行加速,加速效果和网页加载速度以及采集任务的设置有关,通常可以达到3~10倍的加速效果。 加速引擎的加速选项包括:智能请求、智能跳过详情页、多线程采集、禁用多媒体和HTTP引擎。 大家可以在启动任务时进行设置,软件会根据您的设置启动对应的加速功能。 如果您在开启任务时没有使用加速引擎,在任务运行界面中也可以通过点击加速按钮来开启加速功能。 关于加速引擎有以下几点需要注意: 1、加速引擎功能开启后无法取消 2、使用多线程采集功能后,采集结果和输入网址的顺序以及单个网页的内容显示…
在编辑任务界面,点击右下角“开始采集”按钮,跳转到任务启动界面,我们可以在任务启动界面对任务进行配置。 1、定时启动 定时启动功能包括循环采集和定时采集,其中循环采集是按照一个固定的时间间隔(从前一次任务停止到下一次任务启动),循环启动采集任务;定时采集是按照设置的时间周期,循环启动采集任务。 更多详情内容,请参考以下教程: 如何设置定时采集 2、智能策略 智能策略设置包含代理设置、智能切换设置、手动切换设置 3、自动导出 通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务…
这个就更厉害了! 流程图模式是后羿采集器团队为了满足用户丰富的个性化数据采集需求而研发的操作模式。 流程图模式支持可视化的网页点选操作,完全符合人工浏览网页的思维方式,用户只需要打开被采集的网站,用鼠标点击几下就能自动生成复杂的数据采集规则。 流程图模式可以采集目前互联网上99%的网页数据。流程图模式不仅支持单个网址的采集和多个网址的批量采集,支持从本地文件批量导入网址,而且还支持参数网址批量生成。 点此进一步了解流程图模式的使用方法。
后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示: 批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况: 第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。 第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过…
不同于智能模式可以直接设置采集范围,流程图模式采集范围的设置比较复杂一些。 1、只设置结束页面,不设置开始页面的采集范围设置 这种设置比较简单,不管是有分页按钮的网页、瀑布流加载的网页还是瀑布流+分页加载的网页,都只需要选中翻页循环设置,然后在翻页次数那里设置自定义次数,用户想要在哪个页数停止,就选择填相应的页数。 1)分页按钮 2)瀑布流分页 3)瀑布流+分页按钮 2、设置开始采集页面,不设置结束页面的采集范围设置 1)网址会随着页码的变动而变动的网站 用户可以直接复制新的开始采集的网址,在页面上修改网址。 2)…
本教程主要给大家介绍如何创建流程图模式任务,对于新手同学我们推荐优先使用智能模式。 1、输入网址的位置: 1)在左侧工具栏新建流程图模式任务 2)在首页输入框下的左侧开始采集按钮新建流程图模式任务 从上述两个的位置点击之后会进入流程图模式任务创建的设置界面,我们可以在此进行更多的新建任务设置。 2、创建流程图模式任务的设置 1)选择任务创建的分组 我们可以在这里选择把任务创建在哪个分组下,此外,也可以在左侧任务栏右击任务选择分组。 2)选择任务创建的名称 我们可以选择自定义输入方式,也可以按照任务分组名称+编号的方…
在采集数据的过程中,我们经常会遇到需要输入验证码的情况,后羿采集器支持手动输入功能。 需要输入验证码的情况一般可以分为以下两种: 第一种,验证码出现在固定网页,例如注册/登录页面的验证码 第二种,验证码出现在不固定的网页,例如在采集过程中会跳出需要输入验证码的页面 这两种场景中,验证码的设置略有区别。 针对第一种场景,我们可以在一开始编辑采集规则时就进行设置; 针对第二种场景,我们需要先将采集规则运行起来,一直到网站弹出验证码提示了,此时我们停止采集,然后重新打开规则编辑界面进行验证码识别的设置。 本文主要介绍第一…