蜜蜂采集器的采集数据,有两种方法导出到Excel文件。一种是数据编辑窗口的“导出当前页记录”,一种是“发布到文件”中添加Excel文件发布模板。  

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的采集数据,有几种方法导出到PDF文件。一种是数据编辑窗口的“导出当前页记录”,一种是“发布到文件”中添加文件发布模板。此外,也可以使用“发布到插件”的方式,通过插件发布到PDF文件。  

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

在进行数据采集时,可能会遇到这样的情况:采集结果中有重复数据。 八爪鱼提供两种数据去重方式,满足不同程度的去重需求。   一、按整条数据去重(默认)   ​在数据采集完成后,系统有一套默认的去重机制:某一行数据(一行数据即一条数据)的全部字段内容与其他行内全部字段内容都相同,则认为该行数据是重复数据,去重后仅保留重复数据中的第1条。   例1:第1、4条数据全部字段内容都相同,它们是重复数据,去重后仅保留第1条数据。     二、按字段去重(需手动设置,8.1.16及以上版本支持)   在制作规则时,可以设置按字段…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

通过前几课的学习,我们已经学会了采集一页数据:列表、表格、点击链接进入详情的数据。   在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢?   本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。   一、点击 【下一页】按钮翻页   点击页面上的 【下一页】按钮翻页,是最常见的翻页方式。这个网站就是如此:http://www.ggzy.gov.cn/information/info/news/news.shtml     鼠标放到图片上,右键,选择【在新标签页中打开图片…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

问题: 数据没有全部采集到就停止采集了怎么办? 回答: 1. 先确认网站的采集是否需要登录。浏览器里复制到的链接是不会保存登录状态的,所以需要在软件再次进行登录。登录在软件的右上角预登录里进行。 详情请参考预登录的教程: 预登录和预执行操作

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

有很多网站,通过点击【加载更多】或【再显示20条】等按钮进行翻页。像 搜狗微信首页 、微博评论 等页面都是这种情况。   针对这种网页,八爪鱼V8.4.0版本新增【边点击边采集】功能,可以边点击【加载更多按钮】,加载出新数据,边采集每次加载的新数据。   例:设置点击20次,则点击1次后,采集第1次点击后加载的数据,继续点击第2次,采集第2次点击后加载的数据.......直至点击20次,采集第20次点击后加载的数据。   使用智能识别和自行配置的采集规则,都能实现【边点击边采集】,具体设置方法如下。   一、使用智…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

在 第3课中,我们学会了如何采集多个列表中的数据,相信大家都已学会创建【循环-提取数据】。本节课将学习一种特殊格式的列表数据——表格数据采集。   表格是一种很常见的网页样式,例:球探网的赛事比分表,天天基金网的基金排名表,东方财富网的股票信息表,中国证券业协会的年报披露表格等等。   表格作为列表数据的特殊形式,我们可以将表格的每一行看作为列表的每一个数据的大区块范围, 表格每一行的全部单元格字段,相当于列表每个数据区块内的多个子字段。那么上节课讲的【循环-提取数据】创建方法在本课也能用。   现在有一个新浪财经…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

问题: 遇到页面中需要点击的才能查看的数据怎么办? 回答: 可以在软件的右上角,绿色按钮预执行操作界面通过添加点击组件进行查看。 具体请参考教程: 预登录和预执行操作

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

采集场景 点击房天下网站的【二手房】分类,采集【二手房】分类下的房屋数据。 采集时可选择目标城市,本示例以深圳二手房为例:https://sz.esf.fang.com 。   采集字段 房源名称、房屋介绍、联系人、售价、所在小区、具体地址、单位价格等。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/29   八爪鱼版本:V8.5.4 如果因网页改版造成网址或步骤无效,无…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

在第 2 课:采集数据中,学习了如何从网页抓取我们的文本、图片、超链接,对八爪鱼【自定义配置】任务采集数据的过程进行了展示。本课将继续深入学习采集有一些列表中的数据。   列表是最常见的网页样式。示例:京东商品列表,58个同城房书源列表,豆瓣列表。通过简单配置,八爪鱼可以自动采集全部列表中的数据。   现在有一个豆瓣图书列表的网页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。网页上有很多结构相同的图书列表,每个图书列表列表的领域:图书标题、出版信息、评分、评价人数、…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文
13456710