为了让更多的用户实现采集需求,满足对网页图片、文档等文件下载等场景的期待,在八爪鱼8.5.2版本上线了【文件下载】功能。大家不仅可以使用八爪鱼采集所需数据,还可以在采集的过程中下载网页上的文件,包括图片、音频、视频、文档等多种格式。 采集过程中,当用户需要采集网页中的图片、文档等各类文件时,八爪鱼可智能识别文件类型并提供下载选项,帮助用户一次性获取所需数据及文件。 【文件下载】功能支持图片、音频、视频、文档等多种格式的文件下载,例如:    但需要注意目前八爪鱼【文件下载】功能仅支持本地采集模式,云采集文件…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

八爪鱼提供JSON采集功能,通过打开JSON网址,配置流程,能够进行JSON采集。   一、JSON是什么 JSON是一种轻量的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。   二、JSON采集的优点 1、无需加载图片视频等信息,采集速度更快 2、部分网站防采集限制减少,采集更加顺畅     三、JSON采集实例   示例网址:https://b2b.baidu.com/ 需求:采集关键词为机械设备的信息地址,包括:公司名/链接/注册/产品/…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

有一些网页,我们需对其采集流程中的某些步骤,设置【执行前等待】,才能正常采集到数据。 如何判断要不要设置【执行前等待】,怎么设置?   一、【执行前等待】是什么意思   【执行前等待】的意思是,在执行此步骤前,先等待一段时间(等待的时长由自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。     二、【执行前等待】的应用场景   1、手动执行规则有数据,启动本地采集后,很快提示:【采集已停止】   例:微博数据提取,手动执行规则是有数据的,但是启动本地采集后,很快提示【采集已停止】。   …

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

本教程为大家讲解【判断条件】的使用场景与设置方法。   一、【判断条件】常见使用场景    1、判断某一条件(如关键词)是否存在,存在就采集,不存在则不采。 例:采集京东商品信息,只想采集自营商品。可以通过【判断条件】判断是否为自营商品,是则采集,不是则不采。 2、要采集的数据有多种情况,网页源码存在多种样式,需分开收集。 例:网页正文有的是图片有的文字,两者的数据提取方法不同。可以通过【判断条件】判断是图片还是文字,是图片走图片采集分支,是文字则走文字采集分支。   3、判断页面是否出现验证码,出现则自动识别,未…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

一、功能简介 八爪鱼新上线触发器功能,通过对「提取数据」步骤中的字段,设置【某字段 → 满足/不满足某条件 → 就执行某操作】,以限制采集范围,提高采集效率。   二、适用版本 V8.4.0以上版本   三、功能具体说明   每一个「提取数据」步骤,都可设置触发器。 点击【提取数据】步骤,在下方设置页面,点击[高级设置]点击「新增触发器」,可进入到触发器编辑界面,设置触发器名称和条件。     1、设置触发器名称     2、设置触发器条件 1)字段 如图位置,将展示本「提取数据」步骤中的所有字段,可选择要设置条件…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

一、功能简介 在采集数据时,可能存在网页没有正常打开(所需数据未能加载出来,多刷新下能正常加载),页面出现验证码、登录等等防采集的情况。 以上情况,大多可通过「重试」解决。   二、「重试」设置说明 在八爪鱼采集流程中,【打开网页】、【点击元素】和【点击翻页】步骤后均会打开新页面。在流程图下方,会出现[基础设置]、[高级设置]、[重试],将鼠标移到【重试】上,点开「重试」,即可进行相应设置。     1、重试条件 如果网页没有正常打开,例如显示服务器错误(500),访问频率太快等,或者跳转到其他不应该出现的页面。可…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

八爪鱼是基于网址进行数据采集的。支持从本地文件导入网址、根据规律批量生成网址、从已有任务导入网址   一、从本地文件导入网址 新建【自定义任务】,选择从【文件导入】,再选择已有的网址文件,就可以大批量导入。导入之后,可以预览前100条网址。 再点击【保存设置】,即可开始任务配置。     注意: ① 支持csv、xls、xlsx、txt文件格式批量导入网址 ② 支持100w以内网址 ,超过的自动删除   二、批量生成网址 网址中一般有很多参数,根据网址参数的变化规律,可批量生成网址。   1、网址参数中出现数字变化…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

有很多网站,我们需要采集需要鼠标移动上去才会出现数据。   例如:在阿里巴巴列表页,移动到非广告商品图片,会出现同款数量、同款链接等字段,我们需要采集这些数据。     在八爪鱼中该如何操作呢?来看一下具体的操作步骤。   步骤一、打开网页   在首页【输入框】中输入目标网址https://s.1688.com/selloffer/offer_search.htm?keywords=%C5%AE%D7%B0&n=y&netType=1%2C11%2C16,点击【开始采集】,八爪鱼自动打开网页。   …

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

平台简介 八爪鱼「团队协作管理平台」上线,平台管理员可邀请账号成为团队成员,统一管理自己和所有团队成员的任务(查看/启动/复制)、数据(查看/导出/下载)、资源(云节点/代理IP/验证码)等,促进团队协作,提升采集效率。   使用版本限制 旧套餐:年旗舰+、企业版 新套餐:企业版   一、团队协作管理平台的账号   团队协作管理平台的账号包括:1个管理员账号(有且仅有1个)+N个团队成员账号(N≥1)。   1、管理员账号说明   1)如何成为管理员 如企业版或旧套餐旗舰+版本用户想要成为管理员,可以联系八爪鱼客服…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

有的网页包含iframe框架,在八爪鱼中也需进行相应设置,本教程将详细讲解。   1、什么是iframe框架? 通俗来说,iframe框架就是在同一个页面中有多个网页,也就是网页中嵌套了其他的网页。 iframe框架可能有一层,也可能有多层。   如何判断网页有几层iframe框架? 借助火狐浏览器的irebug和firepath插件,我们可以很容易地判断出网页有几层iframe框架。 如果没有安装,请查看 火狐浏览器的irebug和firepath插件安装教程  。 安装好后,点击【Top Window】位置,会…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文
1373839404146