在后羿采集器的流程图模式下,我们在识别窗口可以对浏览器的模式进行设置。如下图所示: 后羿采集器支持两种浏览器模式: (1)电脑浏览器模式 (2)手机浏览器模式 那么这两种该如何选择呢? 首先电脑浏览器模式和手机浏览器模式的区别在于,某些网页的内容在电脑浏览器和手机浏览器模式下会有区别,如果你需要采集的数据在这两种浏览器模式下的某一种中才有,那么你可以切换到相应的浏览器模式,然后再开始采集。

2023年9月5日 0条评论 22点热度 0人点赞 365crawadmin 阅读全文

智能模式不支持在页面中直接点击等操作,如果需要进行在页面进行点击操作,请使用预执行操作功能。 具体操作步骤如下: 1、点击预执行操作按钮 2、根据操作提示或者拖动组件预执行操作 预执行操作窗口其实是一个简化版的流程图模式,在这个窗口中可以按照流程图的方式进行页面操作。 更多详情内容,请参考以下教程: 流程图模式教程

2023年9月5日 0条评论 22点热度 0人点赞 365crawadmin 阅读全文

在采集数据时如果遇到没采集到全部数据就停止采集的情况,可以点击“查看网页”按钮,确认一下采集过程中页面打开是否异常。本文主要讲解如何将采集时的当前页保存成文件。 步骤一:点击“查看网页”按钮 启动任务之后软件会自动打开“任务运行界面”,在这个界面上我们点击“查看网页”按钮即可看到当前正在采集的页面。 可以通过查看网页界面确认任务当前页的打开情况,包括设置的预执行操作是否有正常运行,是否有正常翻页,是否有广告弹窗,是否遇到验证码等。 步骤二:点击下载当前网页 在打开的当前页右上角,有一个“保存当前网页到文件系统”按钮…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

在智能模式下,后羿采集器会按照列表类型对网址进行识别并采集列表元素中的字段,如果软件自动识别的字段不符合您的需求,或者您需要修改字段的相关信息,那么您可以右击字段,然后在弹出的菜单栏中进行设置,如下图所示: 具体设置的详细介绍如下: 1、修改字段名称 2、合并字段 合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔符部分直接设置为空白就好。 另外一种方法是按c…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的加速引擎功能可以对采集任务进行加速,加速效果和网页加载速度以及采集任务的设置有关,通常可以达到3~10倍的加速效果。 加速引擎的加速选项包括:智能请求、智能跳过详情页、多线程采集、禁用多媒体和HTTP引擎。 大家可以在启动任务时进行设置,软件会根据您的设置启动对应的加速功能。 如果您在开启任务时没有使用加速引擎,在任务运行界面中也可以通过点击加速按钮来开启加速功能。 关于加速引擎有以下几点需要注意: 1、加速引擎功能开启后无法取消 2、使用多线程采集功能后,采集结果和输入网址的顺序以及单个网页的内容显示…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

如果需要设置采集范围,可以点击页面上的采集范围按钮直接设置采集范围。 1、设置起始页和结束页 起始页默认为当前页,结束页默认为最后一页。需要注意的是如果选择自定义设置,当前页为第一页。 2、设置跳过项 在采集中可以跳过每页前多少条或者后多少条。 3、设置停止采集 正常的采集任务会根据上述范围从开始页采集到结束页,此处的停止采集是在采集过程中满足设置条件时提前停止采集。停止采集条件设置和数据筛选条件的设置相同,请参考如何设置数据筛选。

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,我们通过以下几种方式来导出采集结果。 1、导出前台运行任务的采集结果 如果采集任务在前台运行,在任务结束后软件会弹出数据采集停止的提示框,此时我们点击“导出数据”按钮,即可导出采集数据结果。 2、导出后台运行任务的采集结果 如果采集任务在后台运行,在任务结束后,桌面右下角会弹出导出提示框,我们根据右下角任务完成的弹框提示打开查看数据界面,或者导出数据。 3、导出已经保存过的采集任务的采集结果 如果不是实时运行的采集任务,而是之前运行过的采集任务,例如我们关闭软件之后又重新打开软件,然导出一…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示: 批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况: 第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。 第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文
123457