采集场景 我们一般通过搜狗微信(https://weixin.sogou.com/),去采集微信公众号文章。搜狗微信支持【公众号搜索】,通过输入公众号名称/ID,可搜索到目标公众号,查看目标公众号相关信息(公众号ID、微信号、功能介绍、微信认证)和其最新发布的一篇文章(文章标题和文章链接),点击文章链接可进入文章详情页,查看文章正文(文字+图片)。   采集字段 公众号名称、微信号、功能介绍、微信认证公司名、文章标题、文章来源、文章作者、发布日期、文章正文。     鼠标放到图片上,右键,选择【在新标签页中打开图片…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

采集场景 打开京东商品详情页(实例网址:https://item.jd.com/100016944073.html ),采集点击不同的参数(颜色、版本等)后得到的数据(商品编号、价格、主图链接等字段会随着参数变化而变化)。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集字段 商品标题、颜色、版本、价格、商品名称、商品编号、图片网址等。   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:       教程说明 本篇…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

八爪鱼是基于网址进行数据采集的。支持从本地文件导入网址、根据规律批量生成网址、从已有任务导入网址   一、从本地文件导入网址 新建【自定义任务】,选择从【文件导入】,再选择已有的网址文件,就可以大批量导入。导入之后,可以预览前100条网址。 再点击【保存设置】,即可开始任务配置。     注意: ① 支持csv、xls、xlsx、txt文件格式批量导入网址 ② 支持100w以内网址 ,超过的自动删除   二、批量生成网址 网址中一般有很多参数,根据网址参数的变化规律,可批量生成网址。   1、网址参数中出现数字变化…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

八爪鱼提供两套API接口,均可以获取通过八爪鱼采集到的数据,实现秒级导出; 获取任务信息,无需启动八爪鱼客户端即可控制任务启停;无缝对接企业的内部系统。 第一套接口今后将不再更新,为提升您今后的使用体验,推荐您使用第二套API接口。   第一套API接口 :   于2018年4月上线,分为 数据导出API 主域名:https://dataapi.bazhuayu.com/  和 任务控制API  主域名:https://advancedapi.bazhuayu.com/     第二套API接口 : 于2021年1…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

我们在采集数据过程中,可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。 可通过自定义定位元素的方式,修改字段定位XPath,对数据的位置进行正确的定位。 请注意,本教程需要一定的XPath知识和相对XPath知识,建议在学习XPath和相对XPath后,再看本教程。 XPath:https://www.bazhuayu.com/tutorial8/81xpath 相对XPath:https://www.bazhuayu.com/tutorial8/81xpath   提取数据一般分为…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

采集场景 在股吧中输入某一批股票的网址,打开其对应的股吧,会展示很多讨论帖。点击每个讨论帖进入详情页,采集详情页的帖子信息和评论信息。 示例网址:http://guba.eastmoney.com/list,300869.html               http://guba.eastmoney.com/list,002108.html    采集字段 股吧名称、帖子作者名称、发布时间、文章标题、文章内容、评论者、评论时间、评论内容等内容。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可…

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

一、什么是【边滚动边采集数据】   有很多网站,需要向下滚动页面,才能加载出新数据,像 今日头条首页、百度图片搜索、新浪微博首页 等页面都是这种情况。 在采集这类网页数据时,相对应的在八爪鱼中也需设置【页面滚动】。   八爪鱼V8.2.0之前的版本,需按照设置的滚动次数,将页面全部滚动完成之后,才会开始采集数据。 例:设置滚动20次,则需等页面滚动20次后,一次性采集前20次滚动后加载的全部数据。 详情请看教程:滚动加载数据采集方法   V8.2.0版本新增【边滚动边采集数据】功能,可以边滚动页面边采集数据。 例:…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

  从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。   现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示:     在八爪鱼中如何操作?以下为具体步骤。…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

采集场景 进入搜狗微信首页,(https://weixin.sogou.com/),采集【热门】分类下的文章列表数据。同时,点击每一篇文章的链接,进入文章详情页,采集文章正文和图片。   采集字段 标题、文章链接、封面图、简介、来源、发布时间、正文、图片链接。       鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2020/4/24    …

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

安装完 八爪鱼Windows客户端 / 八爪鱼Mac客户端 以后,注册一个八爪鱼账号(免费)后,即可登录进入客户端,开始数据采集。   一、注册账号   1、点击客户端【免费注册】按钮,进入注册页面。     访问八爪鱼官网www.bazhuayu.com,点击右上角【注册】按钮,也可进入注册页面。     2、进入注册页面以后,请按提示,使用邮箱或手机号注册。       二、注册账号常见问题   1、邮箱注册,未收到激活邮件? ① 检查邮箱地址是否正确。填写正确的邮箱地址,重新注册一个账号。 ② 激活邮件可能在…

2023年9月5日 0条评论 14点热度 0人点赞 365crawadmin 阅读全文
1234513