采集场景 在B站首页(https://www.bilibili.com/),输入关键词搜索,得到相关视频列表页,然后点击视频链接进入其详情页,采集视频详情页中的详细信息。 示例在首页输入关键词【vlog】搜索,得到搜索结果列表页网址:https://search.bilibili.com/all?keyword=vlog 。   采集字段 视频标题、总播放数、总弹幕数、发布时间、视频时长、点赞数、硬币数、收藏数、视频介绍、页面网址等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下…

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

看过 八爪鱼软件安装与账号注册 教程,我们已注册好账号、登录进入八爪鱼客户端。 现在来看看客户端界面吧!    鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   一、【输入框】和【热门模板采集】   【输入框】:输入网址或者网站名称,开始数据采集。 输入网址:进入【自定义配置采集数据】模式,详情请查看  自定义配置采集数据(含智能识别) 输入网站名称:查找内置的相关网站模板,进入【通过模板采集数据】模式,详情请查看 使用模板采集数据   【热门采集模板】:展示热门的采集模板,点…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

平台简介 八爪鱼「团队协作管理平台」上线,平台管理员可邀请账号成为团队成员,统一管理自己和所有团队成员的任务(查看/启动/复制)、数据(查看/导出/下载)、资源(云节点/代理IP/验证码)等,促进团队协作,提升采集效率。   使用版本限制 旧套餐:年旗舰+、企业版 新套餐:企业版   一、团队协作管理平台的账号   团队协作管理平台的账号包括:1个管理员账号(有且仅有1个)+N个团队成员账号(N≥1)。   1、管理员账号说明   1)如何成为管理员 如企业版或旧套餐旗舰+版本用户想要成为管理员,可以联系八爪鱼客服…

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

一、优化目的 充分利用账号内的云节点,减少节点的闲置时间,提高采集效率,采集更多的数据。   二、云节点分配原则 1、优先级相同 先启动的任务,优先进行第一批次的节点分配,其剩余子任务和后启动任务的子任务一起随机分配。   2、启动时间相同 优先级越高的任务,越先分配到节点。   场景举例: 假设账号内有5个节点,并行任务数为5。 同时启动了10个优先级相同的任务,任务在云端会先进行拆分(假设都可以拆分)。 任务A可拆分成子任务a1,a2,a3,...,an; 任务B可拆分成子任务b1,b2,b3,...,bn; …

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

网页上的数据类型十分丰富:文本、图片、链接、源码等。在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。 示例网址:https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0   1、抓取文本:抓取显示在页面中的文本   操作:鼠标选中页面中的文本,在弹出的操作提示框中选择【采集…

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

火狐浏览器firebug和firepath插件安装方法(最新)。以下为具体步骤。   第1步:下载火狐55以内版本安装包,安装时迅速设置禁止自动更新版本,取消勾选自动更新(目的是防止火狐浏览器自动升级)   54版本火狐浏览器的下载地址:64位火狐54:http://ftp.mozilla.org/pub/firefox/releases/54.0.1/win64/zh-CN/ 32位火狐54:http://ftp.mozilla.org/pub/firefox/releases/54.0.1/win32/zh-C…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

采集场景      通过列表循环点击列表页进入下一级页面采集数据,进入下一级页面后,无法正常返回到列表页。从而导致只能采集一条数据就采集完成,无法采集全部的数据。本文讲解了此类场景下添加【返回上一级】功能步骤,解决此场景下的采集问题。示例网址http://scm.wxmetro.net:3000/Purchase/PurchaseNotice 此功能需要八爪鱼采集器8.5.4版本及以上版本才能支持。             二、返回上一级网页的使用场景   1、这里以一般的网站为例,建立循环点击列表进入详情。进入详…

2023年9月5日 0条评论 22点热度 0人点赞 365crawadmin 阅读全文

在第 2 课:采集数据中,学习了如何从网页抓取我们的文本、图片、超链接,对八爪鱼【自定义配置】任务采集数据的过程进行了展示。本课将继续深入学习采集有一些列表中的数据。   列表是最常见的网页样式。示例:京东商品列表,58个同城房书源列表,豆瓣列表。通过简单配置,八爪鱼可以自动采集全部列表中的数据。   现在有一个豆瓣图书列表的网页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。网页上有很多结构相同的图书列表,每个图书列表列表的领域:图书标题、出版信息、评分、评价人数、…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

采集场景 在知乎首页 https://www.zhihu.com/, 输入关键词搜索,得到相关问题列表。然后,点击问题链接进入详情页,采集该问题下的多个回答数据。   采集字段 问题名称、问题描述、评论数、问题网址、回答ID、回答ID描述、回答ID头像、回答正文等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/5/20…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

采集场景 京东首页(https://www.jd.com/)有很多商品分类,商品分类共三级。鼠标点击三级分类中的某个具体类别后,跳转到此类别的商品列表,跳转网址以list开头。采集list开头的商品列表数据。 实例:点击【家用电器】-【电视】-【平板电视】这个分类,跳转到【平板电视】分类的商品列表,跳转网址为 https://list.jd.com/list.html?cat=737,794,798 。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集字段 商品…

2023年9月5日 0条评论 37点热度 0人点赞 365crawadmin 阅读全文