从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。   现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示:     在八爪鱼中如何操作?以下为具体步骤。…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

采集场景 进入搜狗微信首页,(https://weixin.sogou.com/),采集【热门】分类下的文章列表数据。同时,点击每一篇文章的链接,进入文章详情页,采集文章正文和图片。   采集字段 标题、文章链接、封面图、简介、来源、发布时间、正文、图片链接。       鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2020/4/24    …

2023年9月5日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

安装完 八爪鱼Windows客户端 / 八爪鱼Mac客户端 以后,注册一个八爪鱼账号(免费)后,即可登录进入客户端,开始数据采集。   一、注册账号   1、点击客户端【免费注册】按钮,进入注册页面。     访问八爪鱼官网www.bazhuayu.com,点击右上角【注册】按钮,也可进入注册页面。     2、进入注册页面以后,请按提示,使用邮箱或手机号注册。       二、注册账号常见问题   1、邮箱注册,未收到激活邮件? ① 检查邮箱地址是否正确。填写正确的邮箱地址,重新注册一个账号。 ② 激活邮件可能在…

2023年9月5日 0条评论 14点热度 0人点赞 365crawadmin 阅读全文

八爪鱼是基于网址进行数据采集的。支持从本地文件导入网址、根据规律批量生成网址、从已有任务导入网址   一、从本地文件导入网址 新建【自定义任务】,选择从【文件导入】,再选择已有的网址文件,就可以大批量导入。导入之后,可以预览前100条网址。 再点击【保存设置】,即可开始任务配置。     注意: ① 支持csv、xls、xlsx、txt文件格式批量导入网址 ② 支持100w以内网址 ,超过的自动删除   二、批量生成网址 网址中一般有很多参数,根据网址参数的变化规律,可批量生成网址。   1、网址参数中出现数字变化…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

八爪鱼提供两套API接口,均可以获取通过八爪鱼采集到的数据,实现秒级导出; 获取任务信息,无需启动八爪鱼客户端即可控制任务启停;无缝对接企业的内部系统。 第一套接口今后将不再更新,为提升您今后的使用体验,推荐您使用第二套API接口。   第一套API接口 :   于2018年4月上线,分为 数据导出API 主域名:https://dataapi.bazhuayu.com/  和 任务控制API  主域名:https://advancedapi.bazhuayu.com/     第二套API接口 : 于2021年1…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

我们在采集数据过程中,可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。 可通过自定义定位元素的方式,修改字段定位XPath,对数据的位置进行正确的定位。 请注意,本教程需要一定的XPath知识和相对XPath知识,建议在学习XPath和相对XPath后,再看本教程。 XPath:https://www.bazhuayu.com/tutorial8/81xpath 相对XPath:https://www.bazhuayu.com/tutorial8/81xpath   提取数据一般分为…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

采集场景 在股吧中输入某一批股票的网址,打开其对应的股吧,会展示很多讨论帖。点击每个讨论帖进入详情页,采集详情页的帖子信息和评论信息。 示例网址:http://guba.eastmoney.com/list,300869.html               http://guba.eastmoney.com/list,002108.html    采集字段 股吧名称、帖子作者名称、发布时间、文章标题、文章内容、评论者、评论时间、评论内容等内容。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可…

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。   一、什么是Ajax?   Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。   二、如何判断网页是否使用了Ajax技术?   Ajax网页有2个明显特征:…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

采集场景 今日头条上有很多头条号,实例网址:https://www.toutiao.com/c/user/52255723016/#mid=52255723016,是头条号【北青网】的主页。主页上展示其发布的文章列表。点击文章标题链接,可进入文章详情页,查看文章正文(文字+图片)。   采集字段 文章标题、文章链接、发布时间、阅读数、评论数等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集某个微博博主主页的博文数据,实例地址https://weibo.com/u/3261134763 https://weibo.com/2656274875?refer_flag=1001030103_         采集字段 粉丝数、关注数、全部微博数、发布时间、博文内容、分享数、评论数、点赞数   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。   教程说明 本篇更新时间:2023/03/28 八爪鱼版本:V8.6 如因网页改版导致网址或步骤无效,无法收集到目标数据,请…

2023年9月5日 0条评论 20点热度 0人点赞 365crawadmin 阅读全文
1789101113