在第 2 课:采集数据中,学习了如何从网页抓取我们的文本、图片、超链接,对八爪鱼【自定义配置】任务采集数据的过程进行了展示。本课将继续深入学习采集有一些列表中的数据。   列表是最常见的网页样式。示例:京东商品列表,58个同城房书源列表,豆瓣列表。通过简单配置,八爪鱼可以自动采集全部列表中的数据。   现在有一个豆瓣图书列表的网页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。网页上有很多结构相同的图书列表,每个图书列表列表的领域:图书标题、出版信息、评分、评价人数、…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

采集场景 在知乎首页 https://www.zhihu.com/, 输入关键词搜索,得到相关问题列表。然后,点击问题链接进入详情页,采集该问题下的多个回答数据。   采集字段 问题名称、问题描述、评论数、问题网址、回答ID、回答ID描述、回答ID头像、回答正文等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/5/20…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

采集场景 京东首页(https://www.jd.com/)有很多商品分类,商品分类共三级。鼠标点击三级分类中的某个具体类别后,跳转到此类别的商品列表,跳转网址以list开头。采集list开头的商品列表数据。 实例:点击【家用电器】-【电视】-【平板电视】这个分类,跳转到【平板电视】分类的商品列表,跳转网址为 https://list.jd.com/list.html?cat=737,794,798 。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集字段 商品…

2023年9月5日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Google Sheet是由谷歌提供的一款基于云端的电子表格工具。它是Google Drive中的一部分,允许用户在云端创建、编辑和共享电子表格,类似于Microsoft Excel的在线版本。

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Magento是一款开源的电子商务平台,由Varien公司于2008年首次发布。它提供了一套完整的电子商务解决方案,包括网站建设、商品管理、订单处理、支付处理、客户管理等功能。Magento具有高度的可定制性和灵活性,能够满足不同规模和类型的电子商务企业的需求。

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Contentful是一款面向内容管理和分发的现代化内容管理系统(CMS),专为开发人员和内容创作者设计。它采用API驱动的方式,允许用户轻松地创建、管理和分发内容到不同的渠道和设备上,如网站、移动应用和其他数字平台。

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Zesty.io是一种全球性的内容管理系统(CMS)平台,专注于为企业提供简单、灵活和强大的数字内容管理解决方案。该平台旨在帮助用户轻松创建、管理和发布数字内容,无论是网站、应用还是其他数字渠道。Zesty.io注重用户友好性和高度定制性,使得企业能够更好地管理其在线内容和数字体验。

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集XX行业的数据吗? 回答: 可以,我们软件是一款采集网页数据的通用软件。所以首先需明确XX行业的数据存在于哪个网站上。例如,电商行业的数据在电商网站上有,那么采集电商行业的数据,就转化成采集电商网站了。 此时可以参考以下问题: 后羿采集器能采什么数据? 【温馨提示】为了保护您的隐私,您所有的任务及配置都以加密形式存储于云端,除了您个人外任何人都无法查看具体的内容,您在采集过程中输入的账号密码以及您的采集结果都存在您的本地电脑中。但请您严格遵守相关的法律法规,若后羿采集器官方收到任何关于非法采…

2023年9月5日 0条评论 68点热度 0人点赞 365crawadmin 阅读全文

问题: 遇到页面中需要点击的才能查看的数据怎么办? 回答: 可以在软件的右上角,绿色按钮预执行操作界面通过添加点击组件进行查看。 具体请参考教程: 预登录和预执行操作

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

以下是在使用后羿采集器过程中涉及到的一些名词。 采集规则: 这是后羿采集器记录采集任务的具体设置信息,并且能进行导入导出操作的一个程序脚本。导入已有的规则后既可以进行修改,也可以不做修改直接按照所配置的规则自动地进行数据采集,导出的规则可以发送给其他用户进行使用。   XPath: 这是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据在网页中的位置。 以下简介来自百度百科,请点此查看更详细内容: XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文
1383940414254