云采集监控预警平台   平台简介  八爪鱼「云采集监控预警」上线,通过平台可查看账号节点使用情况、采集数据量等,同时可对任务设置监控,从而实现对任务的监控预警。   使用版本限制 仅限企业版用户使用。   一、进入云采集监控预警平台   1.进入平台 a.可直接访问https://jk.bazhuayu.com/后登录账号密码   b.下载官网的8.5.1以上的版本安装打开,点击客户端左侧【工具】-【云采集监控预警】按钮进入  

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

一、如何解决网页空白   在编辑采集流程步骤中,我们可能会遇到浏览器窗口的网页变成空白的页面。例如从列表页面点击进入详情页,在详情页提取数据时,浏览器中的网页就变成空白页 about:blank。     (浏览器窗口空白01)   这是因为【点击元素】(或【点击列表链接】)的【高级设置】中勾选了【在新标签中打开】,而导致的。   (浏览器窗口空白02)   有些网页的点击并不是开标签的,而ajax加载的(什么是ajax,请参考:Ajax网页设置方法)。   所以对这类网页空白的情况,我们可以通过不勾选【在新标签中…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

在进行数据采集时,可能会遇到这样的情况:采集结果中有重复数据。 八爪鱼提供两种数据去重方式,满足不同程度的去重需求。   一、按整条数据去重(默认)   ​在数据采集完成后,系统有一套默认的去重机制:某一行数据(一行数据即一条数据)的全部字段内容与其他行内全部字段内容都相同,则认为该行数据是重复数据,去重后仅保留重复数据中的第1条。   例1:第1、4条数据全部字段内容都相同,它们是重复数据,去重后仅保留第1条数据。     二、按字段去重(需手动设置,8.1.16及以上版本支持)   在制作规则时,可以设置按字段…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。     一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。 但有时候我们点击了列表页某一项数据之后,点击“选中全部”,但是循环定位到的数据并没有包含咱们要的所有数据项,这个时候可以通过手动修改xpath,让循环定位到咱们所有需要的数据, 这就是我们本节课所要讲的内容。   实例网址:https://www.haodf.com/hospital/list.html   基础操作:…

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

采集场景 在中国天气网页面 http://www.weather.com.cn/forecast/循环点击,采集点击后展示的多个地区的天气列表数据。           采集字段 地区、发布时间、风力、日间天气、夜间天气、温度、详情网址等字段。   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:         教程说明 本篇制作时间:2022/2/27    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、创建【循环点击-提取】,采…

2023年9月5日 0条评论 21点热度 0人点赞 365crawadmin 阅读全文

 经过前几课的学习,我们已经掌握了列表数据、表格数据、点击多个链接后的详情页数据、实现翻页 的任务配置方法。   任务配置完成后,即可启动采集任务,全自动的采集数据。配置好的任务可【启动本地采集】运行在本地电脑中,也可【启动云采集】运行在由八爪鱼提供的云服务器上。本地采集和云采集完成后得到的数据,可以Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种形式导出。     一、【启动本地采集】和【启动云采集】   1、【启动本地采集】   【启动本地采集】即用自己的本地电脑进行数据采集…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

采集场景 在爱采购搜索页面 https://b2b.baidu.com/c?q 输入关键词搜索,然后采集搜索后得到的多个厂家列表数据。   采集字段 厂家名称、主要产品、注册地址、营业期限、注册资本、实例商品价格等字段。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2020/9/28   八爪鱼版本:V8.1.22 如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集Amazon商品评价数据,实例网址:https://www.amazon.com/product-reviews/B07211W6X2/ 。   采集字段 评论标题、评论星级、评论时间、评论内容、有用数、ASIN等字段。   鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇更新时间:2021/10/29    八爪鱼版本:V8.4.2 如果因网…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。 由于网站会对UA进行过滤,有些老旧的UA会打不开该网页。此时就可以通过切换不同的UA来打开网页。以下教程讲解如何获取浏览器中的UA,以及将获得的UA保存在八爪鱼中。 方法一:以Chrome(谷歌)浏览器为例,在地址栏输入about:version,即可出现如下信息。图中的【用户代理】即【User-A…

2023年9月5日 0条评论 21点热度 0人点赞 365crawadmin 阅读全文

如果用八爪鱼配置规则,采集数据出现异常,我们如何快速找出并解决问题?如何更好与客服沟通? 本教程将讲解规则排错的基本思路与方法。   一、手动执行规则   做好采集规则以后,我们最好手动执行一下规则,检查规则是否满足采集需求。 手动执行规则是什么意思?打开流程图界面,按照从上至下,由内而外的逻辑(点击查看 流程执行逻辑教程),将每个步骤都点击一遍,并观察点击步骤后的页面情况。如果符合预期,没问题。如果不符合预期,则需要修改。   1、手动执行规则,符合预期   特别说明: a. 在点击【循环列表】时,最好选择除第1…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文
167891013