在后羿采集器的智能模式下,我们通过以下几种方式来导出采集结果。 1、导出前台运行任务的采集结果 如果采集任务在前台运行,在任务结束后软件会弹出数据采集停止的提示框,此时我们点击“导出数据”按钮,即可导出采集数据结果。 2、导出后台运行任务的采集结果 如果采集任务在后台运行,在任务结束后,桌面右下角会弹出导出提示框,我们根据右下角任务完成的弹框提示打开查看数据界面,或者导出数据。 3、导出已经保存过的采集任务的采集结果 如果不是实时运行的采集任务,而是之前运行过的采集任务,例如我们关闭软件之后又重新打开软件,然导出一…

2023年9月5日 0条评论 37点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示: 批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况: 第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。 第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过…

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

在智能模式中,后羿采集器会自动识别分页,分页类型通常包括以下几种: (1)分页按钮 (2)滚动加载 (3)瀑布流分页(滚动加载)+ 分页按钮 (4)不启用分页 但是偶尔也会发生识别结果错误的情况,原因通常包括以下几种: (1)网页加载速度过慢,软件自动识别结束之后才出现分页按钮 (2)页面中存在多个分页按钮,软件最终只会选择其中的一个 (3)在滚动加载和分页按钮同时存在的情况中,软件自动滚动多次之后分页按钮仍未出现。 (4)当前页面中的分页按钮软件暂时未兼容 “分页设置”的设置菜单如下图所示。 针对不同的分页类型,…

2023年9月5日 0条评论 22点热度 0人点赞 365crawadmin 阅读全文

后羿采集器目前已经支持“邮件提醒”功能,开启邮件提醒功能后,当用户的采集任务在运行过程中遇到需要“输入验证码”或“登录网站”情况时,后羿采集器会通过邮件提醒的方式通知用户。 注意:后羿采集器“邮件提醒”功能仅限企业标准版及以上套餐使用。 下面介绍下使用后羿采集器“邮件提醒”功能的具体操作步骤: 1.配置邮件推送服务 “邮件提醒”功能使用的前提是:配置好邮件推送服务参数。意思是,用户需要使用一个邮箱来作为推送提醒邮件的中转站,所有的提醒邮件都会通过这个邮箱来进行推送的,下面以163邮箱为例进行说明。 首先,在163邮…

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

八爪鱼是基于网址进行数据采集的。支持从本地文件导入网址、根据规律批量生成网址、从已有任务导入网址   一、从本地文件导入网址 新建【自定义任务】,选择从【文件导入】,再选择已有的网址文件,就可以大批量导入。导入之后,可以预览前100条网址。 再点击【保存设置】,即可开始任务配置。     注意: ① 支持csv、xls、xlsx、txt文件格式批量导入网址 ② 支持100w以内网址 ,超过的自动删除   二、批量生成网址 网址中一般有很多参数,根据网址参数的变化规律,可批量生成网址。   1、网址参数中出现数字变化…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

八爪鱼提供两套API接口,均可以获取通过八爪鱼采集到的数据,实现秒级导出; 获取任务信息,无需启动八爪鱼客户端即可控制任务启停;无缝对接企业的内部系统。 第一套接口今后将不再更新,为提升您今后的使用体验,推荐您使用第二套API接口。   第一套API接口 :   于2018年4月上线,分为 数据导出API 主域名:https://dataapi.bazhuayu.com/  和 任务控制API  主域名:https://advancedapi.bazhuayu.com/     第二套API接口 : 于2021年1…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

我们在采集数据过程中,可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。 可通过自定义定位元素的方式,修改字段定位XPath,对数据的位置进行正确的定位。 请注意,本教程需要一定的XPath知识和相对XPath知识,建议在学习XPath和相对XPath后,再看本教程。 XPath:https://www.bazhuayu.com/tutorial8/81xpath 相对XPath:https://www.bazhuayu.com/tutorial8/81xpath   提取数据一般分为…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

采集场景 在股吧中输入某一批股票的网址,打开其对应的股吧,会展示很多讨论帖。点击每个讨论帖进入详情页,采集详情页的帖子信息和评论信息。 示例网址:http://guba.eastmoney.com/list,300869.html               http://guba.eastmoney.com/list,002108.html    采集字段 股吧名称、帖子作者名称、发布时间、文章标题、文章内容、评论者、评论时间、评论内容等内容。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

一、什么是【边滚动边采集数据】   有很多网站,需要向下滚动页面,才能加载出新数据,像 今日头条首页、百度图片搜索、新浪微博首页 等页面都是这种情况。 在采集这类网页数据时,相对应的在八爪鱼中也需设置【页面滚动】。   八爪鱼V8.2.0之前的版本,需按照设置的滚动次数,将页面全部滚动完成之后,才会开始采集数据。 例:设置滚动20次,则需等页面滚动20次后,一次性采集前20次滚动后加载的全部数据。 详情请看教程:滚动加载数据采集方法   V8.2.0版本新增【边滚动边采集数据】功能,可以边滚动页面边采集数据。 例:…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

  从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。   现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示:     在八爪鱼中如何操作?以下为具体步骤。…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文
1222324252654