1、后羿采集器的下载及安装 (1)下载 后羿采集器支持Windows、Mac和Linux全操作系统。您可以点此进入官网首页直接下载软件,网站会根据你的操作系统推送相应的版本; 或者点此打开官网下载页面,这里提供了不同操作系统的安装包下载链接,您可以根据自己的操作系统需求下载对应的安装包。 (2)安装 下载完成后请在文件保存路径找到安装包文件,双击进行安装。 2、后羿采集器的注册及设置 (1)打开后羿采集器,点击左上角进行新用户注册。 (2)您可以选择手机注册或者邮箱注册,后羿采集器为神箭手旗下产品,如果您已经注册过…

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,我们在智能识别窗口可以对浏览器的模式进行设置。如下图所示: 后羿采集器支持两种浏览器模式: (1)电脑浏览器模式 (2)手机浏览器模式 那么这两种该如何选择呢? 如果某些网页的内容在电脑浏览器和手机浏览器模式下会有区别,而且你需要采集的数据在这两种浏览器模式下的某一种中才有,那么你可以切换到相应的浏览器模式,然后再开始采集。  

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

在智能模式中,如果需要修改网址,可以在任务编辑界面点击右上角的网址编辑按钮,进行网址修改。 点击按钮后会打开网址修改界面,软件支持三种网址修改方式,具体如下: 1、手动输入修改网址 2、文件导入修改网址 3、批量生成网址 更多详情内容,请参考以下教程: 如何批量生成网址

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,本文将为大家介绍如何采集这一类的数据。 第一步:采集列表页数据 输入网址后,软件会自动识别列表上的数据,用户可以在这个基础上对字段进行设置。 点此了解更多如何采集列表页数据 第二步:使用深入采集进入详情页 采集完列表页上的数据后,我们需要采集详情页上的数据,可以选中链接使用深入采集,也可以点击链接直接进入详情页。 点此了解如何使用深入采集功能。 第三步:点击页面上按钮获得采集字段 当遇到详情页信息需要点击才会显示的情况,我们可以…

2023年9月5日 0条评论 81点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。 由于网站会对UA进行过滤,有些老旧的UA会打不开该网页。此时就可以通过切换不同的UA来打开网页。以下教程讲解如何获取浏览器中的UA,以及将获得的UA保存在八爪鱼中。 方法一:以Chrome(谷歌)浏览器为例,在地址栏输入about:version,即可出现如下信息。图中的【用户代理】即【User-A…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

如果用八爪鱼配置规则,采集数据出现异常,我们如何快速找出并解决问题?如何更好与客服沟通? 本教程将讲解规则排错的基本思路与方法。   一、手动执行规则   做好采集规则以后,我们最好手动执行一下规则,检查规则是否满足采集需求。 手动执行规则是什么意思?打开流程图界面,按照从上至下,由内而外的逻辑(点击查看 流程执行逻辑教程),将每个步骤都点击一遍,并观察点击步骤后的页面情况。如果符合预期,没问题。如果不符合预期,则需要修改。   1、手动执行规则,符合预期   特别说明: a. 在点击【循环列表】时,最好选择除第1…

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

网页上的数据情况十分复杂。以京东商品列表页为例,每个列表项的字段个数并非完全一致。   如下图所示:第2、4、5个商品列表有【自营】字段,第1、3个是没有【自营】字段的。 在采集第1、3个商品列表时,找不到【自营】字段,本条数据如何处理?下文将具体说明。 示例网址:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%…

2023年9月5日 0条评论 96点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。     一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。但有时候也会遇到一些问题:比如列表中有的部分不是我们想要的,需要进行丢弃。   这时候,可以手动修改XPath去定位列表丢弃不需要的部分。也可以用分支判断丢弃。     以下通过实例进行说明。   实例网址:https://weibo.com/2803301701?refer_flag=1001030103_     一…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

采集场景 在维基百科网页面 https://zh.wikipedia.org/wiki循环输入多个关键词,采集搜索后展示的多个名词解释的详细数据。       采集字段 岛屿、位置、坐标、群岛、面积 、最高海拔、最高点、人口等字段。   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       教程说明 本篇制作时间:2022/2/28    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、批量输入多个关键词并搜索 步骤三、提取检索…

2023年9月5日 0条评论 102点热度 0人点赞 365crawadmin 阅读全文
1171819202154