有的网页包含iframe框架,在八爪鱼中也需进行相应设置,本教程将详细讲解。   1、什么是iframe框架? 通俗来说,iframe框架就是在同一个页面中有多个网页,也就是网页中嵌套了其他的网页。 iframe框架可能有一层,也可能有多层。   如何判断网页有几层iframe框架? 借助火狐浏览器的irebug和firepath插件,我们可以很容易地判断出网页有几层iframe框架。 如果没有安装,请查看 火狐浏览器的irebug和firepath插件安装教程  。 安装好后,点击【Top Window】位置,会…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

在采集数据过程中,我们可能有这样的:第一次采集所有数据,需要再采集的时候只需要采集网络就添加的数据,这时候就可以使用八爪鱼的【增量采集】功能。   【增量采集】通过对比URL来实现增量数据的采集: 将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。   一、功能说明 在任务配置页面,点击【采集配置】按钮,进入配置页面:   进入设置页面后,可以看到: 【启用增量采集】的选项。同时提供两种网址对比方式: 【对比整个URL,包含所有参数】:当前整条网址与之前采集过的网址做对比,如果…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

在做新闻类数据采集的时候,新闻的正文一般都有多个段落。 如果想将正文完全按照原文结构顺序采集下来,并将所有内容合并到一条数据中,可以用文章段落构建循环,然后设置【同一字段多次提取合并为一行】。 本文将以网易财经新闻采集为例详细说明。   示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html   先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示:       启动采集以后发现,得到很多条数据,一段对应一条数…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

XPath对于八爪鱼数据采集十分重要。绝大多数的数据采集问题,都可以通过写一条正确的XPath解决。 本课将详细讲解XPath相关的问题。    一、HTML 与 XPath   我们日常浏览的网页本质上都是一个个HTML文档。打开网页后,鼠标右键打开菜单,选择【查看网页源代码】,就能看到该网站的HTML文档。网页上的数据,在其HTML文档中都有一个对应位置。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   如何在HTML文档中找到想要的数据?XPath是最常用的语言…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

采集场景 在58同城地区首页(https://sz.58.com/ ,示例中默认为深圳) ,进入招聘频道,输入职位名称搜索,得到搜索结果列表。点击职位标题链接进入详情页,采集该职位具体信息。   采集字段 职位、薪酬、更新时间、浏览人数、申请人数等字段。     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     采集步骤 步骤一:打开网页 步骤二、输入关键词并搜索 步骤三、建立【循环-点击元素】,进入每个职位的详情页 步骤四、提取职位详情页中的字段 步骤五、编…

2023年9月5日 0条评论 20点热度 0人点赞 365crawadmin 阅读全文

在 第3课中,我们学会了如何采集多个列表中的数据,相信大家都已学会创建【循环-提取数据】。本节课将学习一种特殊格式的列表数据——表格数据采集。   表格是一种很常见的网页样式,例:球探网的赛事比分表,天天基金网的基金排名表,东方财富网的股票信息表,中国证券业协会的年报披露表格等等。   表格作为列表数据的特殊形式,我们可以将表格的每一行看作为列表的每一个数据的大区块范围, 表格每一行的全部单元格字段,相当于列表每个数据区块内的多个子字段。那么上节课讲的【循环-提取数据】创建方法在本课也能用。   现在有一个新浪财经…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

采集场景 在B站首页(https://www.bilibili.com/),输入关键词搜索,得到相关视频列表页,然后点击视频链接进入其详情页,采集视频详情页中的详细信息。 示例在首页输入关键词【vlog】搜索,得到搜索结果列表页网址:https://search.bilibili.com/all?keyword=vlog 。   采集字段 视频标题、总播放数、总弹幕数、发布时间、视频时长、点赞数、硬币数、收藏数、视频介绍、页面网址等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下…

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

看过 八爪鱼软件安装与账号注册 教程,我们已注册好账号、登录进入八爪鱼客户端。 现在来看看客户端界面吧!    鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   一、【输入框】和【热门模板采集】   【输入框】:输入网址或者网站名称,开始数据采集。 输入网址:进入【自定义配置采集数据】模式,详情请查看  自定义配置采集数据(含智能识别) 输入网站名称:查找内置的相关网站模板,进入【通过模板采集数据】模式,详情请查看 使用模板采集数据   【热门采集模板】:展示热门的采集模板,点…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

平台简介 八爪鱼「团队协作管理平台」上线,平台管理员可邀请账号成为团队成员,统一管理自己和所有团队成员的任务(查看/启动/复制)、数据(查看/导出/下载)、资源(云节点/代理IP/验证码)等,促进团队协作,提升采集效率。   使用版本限制 旧套餐:年旗舰+、企业版 新套餐:企业版   一、团队协作管理平台的账号   团队协作管理平台的账号包括:1个管理员账号(有且仅有1个)+N个团队成员账号(N≥1)。   1、管理员账号说明   1)如何成为管理员 如企业版或旧套餐旗舰+版本用户想要成为管理员,可以联系八爪鱼客服…

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

一、优化目的 充分利用账号内的云节点,减少节点的闲置时间,提高采集效率,采集更多的数据。   二、云节点分配原则 1、优先级相同 先启动的任务,优先进行第一批次的节点分配,其剩余子任务和后启动任务的子任务一起随机分配。   2、启动时间相同 优先级越高的任务,越先分配到节点。   场景举例: 假设账号内有5个节点,并行任务数为5。 同时启动了10个优先级相同的任务,任务在云端会先进行拆分(假设都可以拆分)。 任务A可拆分成子任务a1,a2,a3,...,an; 任务B可拆分成子任务b1,b2,b3,...,bn; …

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文