从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。 现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接) 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示: 在八爪鱼中如何操作?以下为具体步骤。…
采集场景 进入搜狗微信首页,(https://weixin.sogou.com/),采集【热门】分类下的文章列表数据。同时,点击每一篇文章的链接,进入文章详情页,采集文章正文和图片。 采集字段 标题、文章链接、封面图、简介、来源、发布时间、正文、图片链接。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例: 教程说明 本篇制作时间:2020/4/24 …
八爪鱼提供两套API接口,均可以获取通过八爪鱼采集到的数据,实现秒级导出; 获取任务信息,无需启动八爪鱼客户端即可控制任务启停;无缝对接企业的内部系统。 第一套接口今后将不再更新,为提升您今后的使用体验,推荐您使用第二套API接口。 第一套API接口 : 于2018年4月上线,分为 数据导出API 主域名:https://dataapi.bazhuayu.com/ 和 任务控制API 主域名:https://advancedapi.bazhuayu.com/ 第二套API接口 : 于2021年1…
采集场景 在股吧中输入某一批股票的网址,打开其对应的股吧,会展示很多讨论帖。点击每个讨论帖进入详情页,采集详情页的帖子信息和评论信息。 示例网址:http://guba.eastmoney.com/list,300869.html http://guba.eastmoney.com/list,002108.html 采集字段 股吧名称、帖子作者名称、发布时间、文章标题、文章内容、评论者、评论时间、评论内容等内容。 点击查看高清大图,下文其他图片同理 采集结果 采集结果可…
很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。 一、什么是Ajax? Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。 二、如何判断网页是否使用了Ajax技术? Ajax网页有2个明显特征:…
采集场景 今日头条上有很多头条号,实例网址:https://www.toutiao.com/c/user/52255723016/#mid=52255723016,是头条号【北青网】的主页。主页上展示其发布的文章列表。点击文章标题链接,可进入文章详情页,查看文章正文(文字+图片)。 采集字段 文章标题、文章链接、发布时间、阅读数、评论数等字段。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格…
采集场景 采集某个微博博主主页的博文数据,实例地址https://weibo.com/u/3261134763 https://weibo.com/2656274875?refer_flag=1001030103_ 采集字段 粉丝数、关注数、全部微博数、发布时间、博文内容、分享数、评论数、点赞数 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。 教程说明 本篇更新时间:2023/03/28 八爪鱼版本:V8.6 如因网页改版导致网址或步骤无效,无法收集到目标数据,请…