我们在采集数据过程中,可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。 可通过自定义定位元素的方式,修改字段定位XPath,对数据的位置进行正确的定位。 请注意,本教程需要一定的XPath知识和相对XPath知识,建议在学习XPath和相对XPath后,再看本教程。 XPath:https://www.bazhuayu.com/tutorial8/81xpath 相对XPath:https://www.bazhuayu.com/tutorial8/81xpath   提取数据一般分为…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

采集场景 在股吧中输入某一批股票的网址,打开其对应的股吧,会展示很多讨论帖。点击每个讨论帖进入详情页,采集详情页的帖子信息和评论信息。 示例网址:http://guba.eastmoney.com/list,300869.html               http://guba.eastmoney.com/list,002108.html    采集字段 股吧名称、帖子作者名称、发布时间、文章标题、文章内容、评论者、评论时间、评论内容等内容。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

一、什么是【边滚动边采集数据】   有很多网站,需要向下滚动页面,才能加载出新数据,像 今日头条首页、百度图片搜索、新浪微博首页 等页面都是这种情况。 在采集这类网页数据时,相对应的在八爪鱼中也需设置【页面滚动】。   八爪鱼V8.2.0之前的版本,需按照设置的滚动次数,将页面全部滚动完成之后,才会开始采集数据。 例:设置滚动20次,则需等页面滚动20次后,一次性采集前20次滚动后加载的全部数据。 详情请看教程:滚动加载数据采集方法   V8.2.0版本新增【边滚动边采集数据】功能,可以边滚动页面边采集数据。 例:…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

  从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。   现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示:     在八爪鱼中如何操作?以下为具体步骤。…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

采集场景 进入搜狗微信首页,(https://weixin.sogou.com/),采集【热门】分类下的文章列表数据。同时,点击每一篇文章的链接,进入文章详情页,采集文章正文和图片。   采集字段 标题、文章链接、封面图、简介、来源、发布时间、正文、图片链接。       鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2020/4/24    …

2023年9月5日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

安装完 八爪鱼Windows客户端 / 八爪鱼Mac客户端 以后,注册一个八爪鱼账号(免费)后,即可登录进入客户端,开始数据采集。   一、注册账号   1、点击客户端【免费注册】按钮,进入注册页面。     访问八爪鱼官网www.bazhuayu.com,点击右上角【注册】按钮,也可进入注册页面。     2、进入注册页面以后,请按提示,使用邮箱或手机号注册。       二、注册账号常见问题   1、邮箱注册,未收到激活邮件? ① 检查邮箱地址是否正确。填写正确的邮箱地址,重新注册一个账号。 ② 激活邮件可能在…

2023年9月5日 0条评论 15点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Tipask是一款基于PHP开发的问答系统,旨在为网站和社区提供一个便捷的问答交流平台。Tipask允许用户提问问题并获取其他用户的回答和解决方案,同时也可以对问题和回答进行评价和讨论。该系统提供了丰富的功能和用户友好的界面,使得问答交流变得简单高效。

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Joomla是一种流行的免费开源内容管理系统(CMS),用于构建和管理网站、博客和在线应用程序。Joomla采用PHP语言编写,是一个强大灵活的工具,适用于各种网站类型,包括企业门户、社交网络、电子商务平台等。它提供丰富的扩展和模块,允许用户根据自己的需求自定义和扩展网站功能。

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Squarespace 是一个知名的网站建设和内容管理平台,它允许用户创建精美的网站、博客和在线商店,无需编码经验。通过直观的界面和丰富的功能,Squarespace 提供了一种简便的方式来建立和管理个人、商业和创意项目的网站。 适用场景 Squarespace 适用于各种个人、商业和创意项目的需求。 优点:Squarespace是一款知名的网站建设平台,以其精美的模板、可视化编辑和内置功能…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 CoreMedia是一家提供数字内容管理和体验解决方案的公司。其核心产品是CoreMedia Content Cloud,这是一套强大的数字内容管理和体验平台,旨在帮助企业实现个性化的数字体验、多渠道内容分发以及跨设备的用户互动。通过CoreMedia Content Cloud,企业可以创建、管理和分发丰富的数字内容,从而提供吸引人的用户体验,并有效地推动业务增长。

2023年9月5日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文
1343536373854