一、什么是【边滚动边采集数据】   有很多网站,需要向下滚动页面,才能加载出新数据,像 今日头条首页、百度图片搜索、新浪微博首页 等页面都是这种情况。 在采集这类网页数据时,相对应的在八爪鱼中也需设置【页面滚动】。   八爪鱼V8.2.0之前的版本,需按照设置的滚动次数,将页面全部滚动完成之后,才会开始采集数据。 例:设置滚动20次,则需等页面滚动20次后,一次性采集前20次滚动后加载的全部数据。 详情请看教程:滚动加载数据采集方法   V8.2.0版本新增【边滚动边采集数据】功能,可以边滚动页面边采集数据。 例:…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

  从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。   现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示:     在八爪鱼中如何操作?以下为具体步骤。…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

采集场景 进入搜狗微信首页,(https://weixin.sogou.com/),采集【热门】分类下的文章列表数据。同时,点击每一篇文章的链接,进入文章详情页,采集文章正文和图片。   采集字段 标题、文章链接、封面图、简介、来源、发布时间、正文、图片链接。       鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2020/4/24    …

2023年9月5日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

安装完 八爪鱼Windows客户端 / 八爪鱼Mac客户端 以后,注册一个八爪鱼账号(免费)后,即可登录进入客户端,开始数据采集。   一、注册账号   1、点击客户端【免费注册】按钮,进入注册页面。     访问八爪鱼官网www.bazhuayu.com,点击右上角【注册】按钮,也可进入注册页面。     2、进入注册页面以后,请按提示,使用邮箱或手机号注册。       二、注册账号常见问题   1、邮箱注册,未收到激活邮件? ① 检查邮箱地址是否正确。填写正确的邮箱地址,重新注册一个账号。 ② 激活邮件可能在…

2023年9月5日 0条评论 15点热度 0人点赞 365crawadmin 阅读全文

一、功能简介 在采集数据时,可能存在网页没有正常打开(所需数据未能加载出来,多刷新下能正常加载),页面出现验证码、登录等等防采集的情况。 以上情况,大多可通过「重试」解决。   二、「重试」设置说明 在八爪鱼采集流程中,【打开网页】、【点击元素】和【点击翻页】步骤后均会打开新页面。在流程图下方,会出现[基础设置]、[高级设置]、[重试],将鼠标移到【重试】上,点开「重试」,即可进行相应设置。     1、重试条件 如果网页没有正常打开,例如显示服务器错误(500),访问频率太快等,或者跳转到其他不应该出现的页面。可…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

功能简介 任务正在运行云采集的时候,可以查看当前运行详情;任务运行了多次云采集的时候,可以查看历史运行记录。   使用版本限制 云采集(团队版及以上版本)可使用此功能,旧套餐旗舰版及以上版本可使用。     一、查看云采集详情 在任务列表,点击任务云采集的【详情】,进入该任务当前的(任务正在运行)或者最近一次的(任务运行完成)云采集详情页面,查看任务概览、子任务、运行任务日志和运行子任务。     1、任务概览 任务云采集情况总括:任务状态(运行中、已停止、已完成)、采集进度(进度条)、开始时间、结束时间、耗时、采…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

1、添加特殊字段 在提取数据时,我们可以添加一些特殊字段: 【添加当前时间】:采集数据的时间,以电脑显示时间为准。 【添加当前网页信息】:页面网址、页面标题、页面描述、页面关键词、页面源码。 【添加固定字段】:某个固定字段,添加后默认出现在每一行数据前。例如:添加固定值【豆瓣】,表示数据源为豆瓣网。   如何添加? 点击页面右下方【数据预览】的【+】号按钮,按需添加字段。       2、字段上移下移 字段配置完成后,可以调整每个字段的顺序。 将鼠标移动到页面右下方【数据预览】的字段名上,选中  并按住拖动,即可调…

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

采集场景 打开雪球网 https://xueqiu.com/,页面显示雪球热帖列表,点击每一个帖子的标题可进入详情页,查看并采集详情页里面的数据内容。   采集字段 帖子作者、标题、文章内容、发布时间、评论数、评论者、评论内容、评论时间等。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/10  八爪鱼版本:V8.5.2 如果因网页改版造成网址或步骤无效,无法收集到目标数据…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。   一、什么是Ajax?   Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。   二、如何判断网页是否使用了Ajax技术?   Ajax网页有2个明显特征:…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

采集场景 今日头条上有很多头条号,实例网址:https://www.toutiao.com/c/user/52255723016/#mid=52255723016,是头条号【北青网】的主页。主页上展示其发布的文章列表。点击文章标题链接,可进入文章详情页,查看文章正文(文字+图片)。   采集字段 文章标题、文章链接、发布时间、阅读数、评论数等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文
15678913