流程图模式中支持两种深入采集的方式,第一种和智能模式相同,点击深入采集按钮或者链接进行深入采集;第二种是通过点击页面元素,然后根据软件提示进行深入采集。 其中第二种方式是对第一种方式的补充,主要针对一些第一种方式不支持的场景,包括: (1)列表页中没有详情页的链接,并且点击列表页中的详情页的标题之后,打开的详情页与列表页网址相同 (2)列表页中没有详情页的链接,并且点击列表页的详情页标题之后会在原网页中弹出新的窗口,详情页内容在窗口中,弹窗需要手动关闭后才能查看下一个详情页内容 下面我们分别介绍一下两种深入采集的设…

2023年9月5日 0条评论 28点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

在流程图模式中,如果需要修改网址,可以在任务编辑界面点击右上角的网址编辑按钮,进行网址修改。 点击按钮后会打开网址修改界面,软件支持三种网址修改方式,具体如下: 1、手动输入修改网址 2、文件导入修改网址 3、批量生成网址 更多详情内容,请参考以下教程: 如何批量生成网址

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

启动任务设置完毕之后,我们点击“启动”按钮。 然后会打开任务运行界面,在这个界面上我们可以查看网页、查看运行日志、查看采集结果、开启自动导出、开启加速、暂停任务或者停止任务。 1、查看网页 点击页面上的“查看网页”按钮,可以在新打开的窗口中查看当前正在采集的网页。 在这个界面中,我们点击右上角的保存按钮,可以把这个网页保存下来,一般用于需要保存当前网页来排查遇到的问题。 2、运行日志 点击“运行日志”可以查看当前任务的运行状态。 3、查看采集结果 点击“数据”可以预览当前任务的部分采集结果。 4、暂停 点击“暂停”…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

在设置采集任务的过程中,有时候我们会遇到一些不需要采集的数据,如某些数值为空的数据或者包含某些字符的数据,从而在一定程度上影响了采集速度和效果,针对这种情况我们可以使用数据筛选功能,避免采集到无效数据。 智能模式中,“数据筛选”功能按钮在任务操作栏的右上角,点击之后会打开筛选条件设置窗口,如下图所示。 流程图模式中,“数据筛选”功能在提取数据组件菜单栏的右上角,,点击之后会打开筛选条件设置窗口,如下图所示。(如果流程图中有多个提取数据组件,数据筛选是共享的,在任意一个提取数据组件中打开设置都可以) 在数据筛选功能界…

2023年9月5日 0条评论 24点热度 0人点赞 365crawadmin 阅读全文

在设置采集任务的过程中,用户会遇到多种多样的网页,一般可以分为三种:一种是直接有分页按钮的网页,一种是瀑布流类型的网页,还有一种是分页+瀑布流类型的网页。 1. 页面中有可点击的分页按钮(例如“下一页”或“点击加载更多”) 这种网页是最常见的一种分页类型,在提取列表元素后,软件会提示是否需要自动翻页采集。如果用户只采集单页数据,则不需要设置分页循环。 在点击需要设置分页循环之后,软件会提示所识别到的分页是否正确,如果点击正确按钮,软件会配置好循环组件。 具体如下动图所示: 如果软件识别的分页按钮不够准确,用户可以点…

2023年9月5日 0条评论 24点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的流程图模式下,我们在识别窗口可以对浏览器的模式进行设置。如下图所示: 后羿采集器支持两种浏览器模式: (1)电脑浏览器模式 (2)手机浏览器模式 那么这两种该如何选择呢? 首先电脑浏览器模式和手机浏览器模式的区别在于,某些网页的内容在电脑浏览器和手机浏览器模式下会有区别,如果你需要采集的数据在这两种浏览器模式下的某一种中才有,那么你可以切换到相应的浏览器模式,然后再开始采集。

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 1)软件可以准确识别列表的情况 点击列表中的任一行,软件会自动识别出列表并给出提示,选择“提取列表中的数据”。 软件会自动识别当前页面的分页按钮,我们可以根据提示设置自动翻页操作。 更多详情内容,请参考以下教程: 如何设置分页

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的加速引擎功能可以对采集任务进行加速,加速效果和网页加载速度以及采集任务的设置有关,通常可以达到3~10倍的加速效果。 加速引擎的加速选项包括:智能请求、智能跳过详情页、多线程采集、禁用多媒体和HTTP引擎。 大家可以在启动任务时进行设置,软件会根据您的设置启动对应的加速功能。 如果您在开启任务时没有使用加速引擎,在任务运行界面中也可以通过点击加速按钮来开启加速功能。 关于加速引擎有以下几点需要注意: 1、加速引擎功能开启后无法取消 2、使用多线程采集功能后,采集结果和输入网址的顺序以及单个网页的内容显示…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

在编辑任务界面,点击右下角“开始采集”按钮,跳转到任务启动界面,我们可以在任务启动界面对任务进行配置。 1、定时启动 定时启动功能包括循环采集和定时采集,其中循环采集是按照一个固定的时间间隔(从前一次任务停止到下一次任务启动),循环启动采集任务;定时采集是按照设置的时间周期,循环启动采集任务。 更多详情内容,请参考以下教程: 如何设置定时采集 2、智能策略 智能策略设置包含代理设置、智能切换设置、手动切换设置 3、自动导出 通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文