八爪鱼提供两套API接口,均可以获取通过八爪鱼采集到的数据,实现秒级导出; 获取任务信息,无需启动八爪鱼客户端即可控制任务启停;无缝对接企业的内部系统。 第一套接口今后将不再更新,为提升您今后的使用体验,推荐您使用第二套API接口。   第一套API接口 :   于2018年4月上线,分为 数据导出API 主域名:https://dataapi.bazhuayu.com/  和 任务控制API  主域名:https://advancedapi.bazhuayu.com/     第二套API接口 : 于2021年1…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

 经过前几课的学习,我们已经掌握了列表数据、表格数据、点击多个链接后的详情页数据、实现翻页 的任务配置方法。   任务配置完成后,即可启动采集任务,全自动的采集数据。配置好的任务可【启动本地采集】运行在本地电脑中,也可【启动云采集】运行在由八爪鱼提供的云服务器上。本地采集和云采集完成后得到的数据,可以Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种形式导出。     一、【启动本地采集】和【启动云采集】   1、【启动本地采集】   【启动本地采集】即用自己的本地电脑进行数据采集…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

问题: 采集不出数据 / 数据空白 / 某些字段漏采怎么办? 回答: 1. 确认不同网页该数据是否出现在同一位置,有没有可能是识别的位置不一样导致数据漏采。这种情况找数据最多的网页进行任务编辑,多添加几个字段。 2. 可能是网页加载不完全导致的。参考以下操作: 点击开始采集后会弹出任务配置界面,找到智能策略。往下滚动鼠标有一个手动切换,里边设置等待时间(等待时间长短根据实际情况设置,网站打开越慢时间越长,推荐5s以上),然后勾选逐行滚动预加载(滚动距离默认0就行)。

2023年9月5日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

在进行数据采集时,可能会遇到这样的情况:采集结果中有重复数据。 八爪鱼提供两种数据去重方式,满足不同程度的去重需求。   一、按整条数据去重(默认)   ​在数据采集完成后,系统有一套默认的去重机制:某一行数据(一行数据即一条数据)的全部字段内容与其他行内全部字段内容都相同,则认为该行数据是重复数据,去重后仅保留重复数据中的第1条。   例1:第1、4条数据全部字段内容都相同,它们是重复数据,去重后仅保留第1条数据。     二、按字段去重(需手动设置,8.1.16及以上版本支持)   在制作规则时,可以设置按字段…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

通过前几课的学习,我们已经学会了采集一页数据:列表、表格、点击链接进入详情的数据。   在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢?   本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。   一、点击 【下一页】按钮翻页   点击页面上的 【下一页】按钮翻页,是最常见的翻页方式。这个网站就是如此:http://www.ggzy.gov.cn/information/info/news/news.shtml     鼠标放到图片上,右键,选择【在新标签页中打开图片…

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

问题: 数据没有全部采集到就停止采集了怎么办? 回答: 1. 先确认网站的采集是否需要登录。浏览器里复制到的链接是不会保存登录状态的,所以需要在软件再次进行登录。登录在软件的右上角预登录里进行。 详情请参考预登录的教程: 预登录和预执行操作

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

有很多网站,通过点击【加载更多】或【再显示20条】等按钮进行翻页。像 搜狗微信首页 、微博评论 等页面都是这种情况。   针对这种网页,八爪鱼V8.4.0版本新增【边点击边采集】功能,可以边点击【加载更多按钮】,加载出新数据,边采集每次加载的新数据。   例:设置点击20次,则点击1次后,采集第1次点击后加载的数据,继续点击第2次,采集第2次点击后加载的数据.......直至点击20次,采集第20次点击后加载的数据。   使用智能识别和自行配置的采集规则,都能实现【边点击边采集】,具体设置方法如下。   一、使用智…

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

在 第3课中,我们学会了如何采集多个列表中的数据,相信大家都已学会创建【循环-提取数据】。本节课将学习一种特殊格式的列表数据——表格数据采集。   表格是一种很常见的网页样式,例:球探网的赛事比分表,天天基金网的基金排名表,东方财富网的股票信息表,中国证券业协会的年报披露表格等等。   表格作为列表数据的特殊形式,我们可以将表格的每一行看作为列表的每一个数据的大区块范围, 表格每一行的全部单元格字段,相当于列表每个数据区块内的多个子字段。那么上节课讲的【循环-提取数据】创建方法在本课也能用。   现在有一个新浪财经…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

问题: 遇到页面中需要点击的才能查看的数据怎么办? 回答: 可以在软件的右上角,绿色按钮预执行操作界面通过添加点击组件进行查看。 具体请参考教程: 预登录和预执行操作

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文
14567810