后羿采集器提供了两种不同的采集模式,针对不同的网站和采集需求,选择合适的采集模式不仅可以降低采集难度,同时也可以提高采集效率。 下面我们来看一下如何选择合适的采集模式。 1、智能模式:适合列表类型网页、单页类型网页和列表+详情页类型网页 智能模式比较适合以上三种类型的网页,复杂的网页类型不宜使用该模式,会降低采集对象的识别准确率。 在批量采集多个网址时,建议只输入同一个网站的同一种类型的网页,例如全部都是列表类型或全部都是单页类型,不同网站或不同类型的网页建议创建不同的任务进行采集。 如果您没有编程基础,或是想省去…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的智能模式的强大之处在于它不仅可以采集单页类型和列表类型的网页,还能够支持采集列表页+详情页的网页类型。 下面我们来详细介绍一下如何采集采集列表页+详情页内容。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步中,软件会识别出列表内容中的链接,用户也可以通过手动设置提取到链接,在此基础上,我们如果需要采集到链接对应的详情页的内容,需要用到深入采集功能。 更多详情内容,请参考以下教程: 如何设置深入采集 第三步:设置详情页数据 详情页的采集和单页类型…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的流程图模式下,我们在识别窗口可以对浏览器的模式进行设置。如下图所示: 后羿采集器支持两种浏览器模式: (1)电脑浏览器模式 (2)手机浏览器模式 那么这两种该如何选择呢? 首先电脑浏览器模式和手机浏览器模式的区别在于,某些网页的内容在电脑浏览器和手机浏览器模式下会有区别,如果你需要采集的数据在这两种浏览器模式下的某一种中才有,那么你可以切换到相应的浏览器模式,然后再开始采集。

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

在如何设置数据筛选和如何设置采集范围两篇教程中,我们分别介绍了数据筛选条件和采集停止条件的设置步骤,可以看出这两个条件使用的是同样的设置方式。 这里我们以 A 或者 (B 并且 C 并且 D)或者 E 为例给大家解释如何设置。 以数据筛选为例(请忽略字段,条件和值的设置),设置结果如下图所示: 在设置条件时,存在“组间关系”和“组内关系”两种设置,这是为了让大家能够设置条件运算的优先级。 其中“组间关系”都是“或者”,“组内关系”都是“并且”,组内的优先运算,然后再是组之间的运算。 因此,如果需要添加“或者”条件,…

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

本文主要为大家介绍使用后羿采集器的流程图模式,采集网站上多关键词的数据。 步骤一:新建采集任务 1、复制官网的网页地址(需要搜索结果页的网址,而不是首页的网址) 更多详情内容,请参考以下教程: 如何正确地输入网址。

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

平台简介 八爪鱼「团队协作管理平台」上线,平台管理员可邀请账号成为团队成员,统一管理自己和所有团队成员的任务(查看/启动/复制)、数据(查看/导出/下载)、资源(云节点/代理IP/验证码)等,促进团队协作,提升采集效率。   使用版本限制 旧套餐:年旗舰+、企业版 新套餐:企业版   一、团队协作管理平台的账号   团队协作管理平台的账号包括:1个管理员账号(有且仅有1个)+N个团队成员账号(N≥1)。   1、管理员账号说明   1)如何成为管理员 如企业版或旧套餐旗舰+版本用户想要成为管理员,可以联系八爪鱼客服…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

一、优化目的 充分利用账号内的云节点,减少节点的闲置时间,提高采集效率,采集更多的数据。   二、云节点分配原则 1、优先级相同 先启动的任务,优先进行第一批次的节点分配,其剩余子任务和后启动任务的子任务一起随机分配。   2、启动时间相同 优先级越高的任务,越先分配到节点。   场景举例: 假设账号内有5个节点,并行任务数为5。 同时启动了10个优先级相同的任务,任务在云端会先进行拆分(假设都可以拆分)。 任务A可拆分成子任务a1,a2,a3,...,an; 任务B可拆分成子任务b1,b2,b3,...,bn; …

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

网页上的数据类型十分丰富:文本、图片、链接、源码等。在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。 示例网址:https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0   1、抓取文本:抓取显示在页面中的文本   操作:鼠标选中页面中的文本,在弹出的操作提示框中选择【采集…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

火狐浏览器firebug和firepath插件安装方法(最新)。以下为具体步骤。   第1步:下载火狐55以内版本安装包,安装时迅速设置禁止自动更新版本,取消勾选自动更新(目的是防止火狐浏览器自动升级)   54版本火狐浏览器的下载地址:64位火狐54:http://ftp.mozilla.org/pub/firefox/releases/54.0.1/win64/zh-CN/ 32位火狐54:http://ftp.mozilla.org/pub/firefox/releases/54.0.1/win32/zh-C…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

采集场景      通过列表循环点击列表页进入下一级页面采集数据,进入下一级页面后,无法正常返回到列表页。从而导致只能采集一条数据就采集完成,无法采集全部的数据。本文讲解了此类场景下添加【返回上一级】功能步骤,解决此场景下的采集问题。示例网址http://scm.wxmetro.net:3000/Purchase/PurchaseNotice 此功能需要八爪鱼采集器8.5.4版本及以上版本才能支持。             二、返回上一级网页的使用场景   1、这里以一般的网站为例,建立循环点击列表进入详情。进入详…

2023年9月5日 0条评论 22点热度 0人点赞 365crawadmin 阅读全文
1202122232454