后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 列表页通常是指网站或应用程序中的一个页面,它用于展示多个项目、文章、产品或其他内容的摘要,以帮助用户快速浏览并选择他们感兴趣的内容。列表页上通常包含多个项目,这些项目可以是文章、产品、服务、新闻、用户等。每个项目通常由一些基本信息组成,如标题、摘要、发布日期、图片等。如果项目数量很大,列表页可能会分为多个页面,用户可以通过分页按钮或无限滚动来查看更多项目。

2023年10月10日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。     一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。但有时候也会遇到一些问题:比如列表中有的部分不是我们想要的,需要进行丢弃。   这时候,可以手动修改XPath去定位列表丢弃不需要的部分。也可以用分支判断丢弃。     以下通过实例进行说明。   实例网址:https://weibo.com/2803301701?refer_flag=1001030103_     一…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 1)软件可以准确识别列表的情况 点击列表中的任一行,软件会自动识别出列表并给出提示,选择“提取列表中的数据”。 软件会自动识别当前页面的分页按钮,我们可以根据提示设置自动翻页操作。 更多详情内容,请参考以下教程: 如何设置分页

2023年9月5日 0条评论 66点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。   一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到我们想要的全部数据。但有时候也会遇到一些问题:比如滚动后加载出100个列表,为什么只采集到20个?有一些列表并不是我们需要的,如何将其排除掉? 页面本来有30条列表,为什么却只能采集到10条?   这时候,就需要手动修改XPath去精准定位列表。   以下通过实例进行说明。   实例网址:https://www.made-in-chi…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

采集场景 在百度地图首页(https://map.baidu.com)输入【城市+关键词】搜索,采集搜索结果列表页。示例中关键词为【深圳 火锅】,可根据需求进行更换,同时支持自动批量输入多个关键词。   采集字段 搜索关键词、商家名称、人均、地址等。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/16    八爪鱼版本:V8…

2023年9月5日 0条评论 78点热度 0人点赞 365crawadmin 阅读全文

通过前几课的学习,我们已经学会了 采集列表数据、采集表格数据。如果一个页面上很多同类链接,需要依次点击每个链接进入详情页,然后采集每个详情页中的数据呢?   以百度百家号为例。现在有一个百家号资讯列表的网页:https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2 可以看到,网页上有很多资讯链接,点击每个资讯链接进入详情页,每个详情页都有…

2023年9月5日 0条评论 62点热度 0人点赞 365crawadmin 阅读全文

在第 2 课:采集数据中,学习了如何从网页抓取我们的文本、图片、超链接,对八爪鱼【自定义配置】任务采集数据的过程进行了展示。本课将继续深入学习采集有一些列表中的数据。   列表是最常见的网页样式。示例:京东商品列表,58个同城房书源列表,豆瓣列表。通过简单配置,八爪鱼可以自动采集全部列表中的数据。   现在有一个豆瓣图书列表的网页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。网页上有很多结构相同的图书列表,每个图书列表列表的领域:图书标题、出版信息、评分、评价人数、…

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

采集场景 孔夫子旧书网有非常多的类目,本教程讲解如何分类目采集图书列表页数据。 示例网址 http://book.kongfz.com/Cjishu/n1004000000/ 是【图书-工程技术-改革开放与80年代】类目的网址。   采集字段 书名、出版社、店铺名称、发货地址、品相、售价等字段。       点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/08   八爪鱼版本:…

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

采集场景 进入搜狗微信首页,(https://weixin.sogou.com/),采集【热门】分类下的文章列表数据。同时,点击每一篇文章的链接,进入文章详情页,采集文章正文和图片。   采集字段 标题、文章链接、封面图、简介、来源、发布时间、正文、图片链接。       鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2020/4/24    …

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文