1、后羿采集器的下载及安装 (1)下载 后羿采集器支持Windows、Mac和Linux全操作系统。您可以点此进入官网首页直接下载软件,网站会根据你的操作系统推送相应的版本; 或者点此打开官网下载页面,这里提供了不同操作系统的安装包下载链接,您可以根据自己的操作系统需求下载对应的安装包。 (2)安装 下载完成后请在文件保存路径找到安装包文件,双击进行安装。 2、后羿采集器的注册及设置 (1)打开后羿采集器,点击左上角进行新用户注册。 (2)您可以选择手机注册或者邮箱注册,后羿采集器为神箭手旗下产品,如果您已经注册过…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,我们在智能识别窗口可以对浏览器的模式进行设置。如下图所示: 后羿采集器支持两种浏览器模式: (1)电脑浏览器模式 (2)手机浏览器模式 那么这两种该如何选择呢? 如果某些网页的内容在电脑浏览器和手机浏览器模式下会有区别,而且你需要采集的数据在这两种浏览器模式下的某一种中才有,那么你可以切换到相应的浏览器模式,然后再开始采集。  

2023年9月5日 0条评论 21点热度 0人点赞 365crawadmin 阅读全文

在智能模式中,如果需要修改网址,可以在任务编辑界面点击右上角的网址编辑按钮,进行网址修改。 点击按钮后会打开网址修改界面,软件支持三种网址修改方式,具体如下: 1、手动输入修改网址 2、文件导入修改网址 3、批量生成网址 更多详情内容,请参考以下教程: 如何批量生成网址

2023年9月5日 0条评论 20点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,本文将为大家介绍如何采集这一类的数据。 第一步:采集列表页数据 输入网址后,软件会自动识别列表上的数据,用户可以在这个基础上对字段进行设置。 点此了解更多如何采集列表页数据 第二步:使用深入采集进入详情页 采集完列表页上的数据后,我们需要采集详情页上的数据,可以选中链接使用深入采集,也可以点击链接直接进入详情页。 点此了解如何使用深入采集功能。 第三步:点击页面上按钮获得采集字段 当遇到详情页信息需要点击才会显示的情况,我们可以…

2023年9月5日 0条评论 62点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

一、定时本地采集是什么?   支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。   二、如何设置定时本地采集   1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。     2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的   按钮,选择【本地采集】-【设…

2023年9月5日 0条评论 24点热度 0人点赞 365crawadmin 阅读全文

有些网站可能我们用系统做好的规则在采集的时候可能明明已经采集最后一页了,就是不停止,一直在最后一页循环采集,这种情况其实是由于Xpath定位不对导致的,我们需要通过修改Xpath来解决这个翻页问题。   在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的(列表循环-翻页循环): 此教程引用的示例网址:http://www.gzebpubservice.cn/dlzbgg/index_590.htm            如上图中,浏览器中要采集的数据已经在最后一页了,可…

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

1、正则表达式简介 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个【规则字符串】,这个【规则字符串】用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。   2、正则的用途 字符串匹配(字符匹配) 字符串查找 字符串替换   3、常用元字符及描述 \d 匹配一个数字字符。等价于[0-9] \D 匹配一个非数字字符。等价于[^0-9]…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。   一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到我们想要的全部数据。但有时候也会遇到一些问题:比如滚动后加载出100个列表,为什么只采集到20个?有一些列表并不是我们需要的,如何将其排除掉? 页面本来有30条列表,为什么却只能采集到10条?   这时候,就需要手动修改XPath去精准定位列表。   以下通过实例进行说明。   实例网址:https://www.made-in-chi…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

采集场景 空天院遥感数据服务系统页面 http://eds.ceode.ac.cn/nuds/freedataquery设置查询条件,采集查询展示的卫星数据。             采集字段 数据标识 、卫星和传感器、 成像时间 、链接等字段。       采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:           教程说明 本篇制作时间:2022/2/27    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、设置筛选条件…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文
1373839404154