如果需要设置采集范围,可以点击页面上的采集范围按钮直接设置采集范围。 1、设置起始页和结束页 起始页默认为当前页,结束页默认为最后一页。需要注意的是如果选择自定义设置,当前页为第一页。 2、设置跳过项 在采集中可以跳过每页前多少条或者后多少条。 3、设置停止采集 正常的采集任务会根据上述范围从开始页采集到结束页,此处的停止采集是在采集过程中满足设置条件时提前停止采集。停止采集条件设置和数据筛选条件的设置相同,请参考如何设置数据筛选。

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

这个说起来可就厉害了! 智能模式是后羿采集器团队基于人工智能技术研发的新一代采集模式。 该模式操作极其简单,只需要输入被采集的网址就能智能识别出网页中的内容,无需配置任何采集规则就能够完成数据的采集。我们来简单看一下是怎么操作的。 智能模式支持单个网址的采集和多个网址的批量采集,支持从本地TXT文档中批量导入网址,并且支持批量生成网址。 智能模式主要针对单页类型网页、列表类型网页和列表+详情页类型的网页,在批量采集多个网址时,建议只输入同一种类型的网页,例如全部都是列表类型或全部都是内容类型。 不同类型的网页建议创…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

在智能模式中,如果需要修改网址,可以在任务编辑界面点击右上角的网址编辑按钮,进行网址修改。 点击按钮后会打开网址修改界面,软件支持三种网址修改方式,具体如下: 1、手动输入修改网址 2、文件导入修改网址 3、批量生成网址 更多详情内容,请参考以下教程: 如何批量生成网址

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

智能模式是后羿采集器中最简单的模式,也是我们首推的模式,尤其适合新手用户,本教程主要给大家介绍如何创建智能模式任务。 1、创建智能模式任务的位置: 1)在采集器首页输入框:只能输入一个网址。 在此输入网址之后,软件会直接跳转到任务编辑界面,用户可在任务编辑界面继续操作。 2)在左侧工具栏新建智能模式任务 3)在首页输入框下的右侧开始采集按钮新建智能模式任务 从 2)和 3)的位置点击之后会进入智能模式任务创建的界面,用户可以在此进行更多的设置。 2、创建智能模式任务的设置 1)选择任务创建的分组 用户可以在这里选择…

2023年9月5日 0条评论 68点热度 0人点赞 365crawadmin 阅读全文

在设置采集任务的过程中,有时候我们会遇到一些不需要采集的数据,如某些数值为空的数据或者包含某些字符的数据,从而在一定程度上影响了采集速度和效果,针对这种情况我们可以使用数据筛选功能,避免采集到无效数据。 智能模式中,“数据筛选”功能按钮在任务操作栏的右上角,点击之后会打开筛选条件设置窗口,如下图所示。 流程图模式中,“数据筛选”功能在提取数据组件菜单栏的右上角,,点击之后会打开筛选条件设置窗口,如下图所示。(如果流程图中有多个提取数据组件,数据筛选是共享的,在任意一个提取数据组件中打开设置都可以) 在数据筛选功能界…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

启动任务设置完毕之后,我们点击“启动”按钮。 然后会打开任务运行界面,在这个界面上我们可以查看网页、查看运行日志、查看采集结果、开启自动导出、开启加速、暂停任务或者停止任务。 1、查看网页 点击页面上的“查看网页”按钮,可以在新打开的窗口中查看当前正在采集的网页。 在这个界面中,我们点击右上角的保存按钮,可以把这个网页保存下来,一般用于需要保存当前网页来排查遇到的问题。 2、运行日志 点击“运行日志”可以查看当前任务的运行状态。 3、查看采集结果 点击“数据”可以预览当前任务的部分采集结果。 4、暂停 点击“暂停”…

2023年9月5日 0条评论 68点热度 0人点赞 365crawadmin 阅读全文

在智能模式中,后羿采集器会默认按照列表类型进行识别,如果您输入网页属于单页类型,此时的页面类型识别结果肯定是不正确的;或者由于网页加载速度等其他原因,即使您输入的网页是列表类型,也可能出现识别失败的情况,此时您可以手动设置页面类型。 关于单页和列表页的介绍请参考以下教程: 什么是单页类型的网页?如何采集? 什么是列表类型的网页?如何采集? 分页设置的过程如下: “页面类型”的设置菜单如下图所示。 如果是单页类型的网页,您可以直接选择“单页类型”。 如果是列表类型的网页,您可以点击“自动识别”,软件会重新尝试识别列表…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的加速引擎功能可以对采集任务进行加速,加速效果和网页加载速度以及采集任务的设置有关,通常可以达到3~10倍的加速效果。 加速引擎的加速选项包括:智能请求、智能跳过详情页、多线程采集、禁用多媒体和HTTP引擎。 大家可以在启动任务时进行设置,软件会根据您的设置启动对应的加速功能。 如果您在开启任务时没有使用加速引擎,在任务运行界面中也可以通过点击加速按钮来开启加速功能。 关于加速引擎有以下几点需要注意: 1、加速引擎功能开启后无法取消 2、使用多线程采集功能后,采集结果和输入网址的顺序以及单个网页的内容显示…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

在编辑任务界面,点击右下角“开始采集”按钮,跳转到任务启动界面,我们可以在任务启动界面对任务进行配置。 1、定时启动 定时启动功能包括循环采集和定时采集,其中循环采集是按照一个固定的时间间隔(从前一次任务停止到下一次任务启动),循环启动采集任务;定时采集是按照设置的时间周期,循环启动采集任务。 更多详情内容,请参考以下教程: 如何设置定时采集 2、智能策略 智能策略设置包含代理设置、智能切换设置、手动切换设置 3、自动导出 通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文