在进行数据采集时,可能会遇到这样的情况:采集结果中有重复数据。 八爪鱼提供两种数据去重方式,满足不同程度的去重需求。   一、按整条数据去重(默认)   ​在数据采集完成后,系统有一套默认的去重机制:某一行数据(一行数据即一条数据)的全部字段内容与其他行内全部字段内容都相同,则认为该行数据是重复数据,去重后仅保留重复数据中的第1条。   例1:第1、4条数据全部字段内容都相同,它们是重复数据,去重后仅保留第1条数据。     二、按字段去重(需手动设置,8.1.16及以上版本支持)   在制作规则时,可以设置按字段…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。     一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。 但有时候我们点击了列表页某一项数据之后,点击“选中全部”,但是循环定位到的数据并没有包含咱们要的所有数据项,这个时候可以通过手动修改xpath,让循环定位到咱们所有需要的数据, 这就是我们本节课所要讲的内容。   实例网址:https://www.haodf.com/hospital/list.html   基础操作:…

2023年9月5日 0条评论 100点热度 0人点赞 365crawadmin 阅读全文

采集场景 在中国天气网页面 http://www.weather.com.cn/forecast/循环点击,采集点击后展示的多个地区的天气列表数据。           采集字段 地区、发布时间、风力、日间天气、夜间天气、温度、详情网址等字段。   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:         教程说明 本篇制作时间:2022/2/27    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、创建【循环点击-提取】,采…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

 经过前几课的学习,我们已经掌握了列表数据、表格数据、点击多个链接后的详情页数据、实现翻页 的任务配置方法。   任务配置完成后,即可启动采集任务,全自动的采集数据。配置好的任务可【启动本地采集】运行在本地电脑中,也可【启动云采集】运行在由八爪鱼提供的云服务器上。本地采集和云采集完成后得到的数据,可以Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种形式导出。     一、【启动本地采集】和【启动云采集】   1、【启动本地采集】   【启动本地采集】即用自己的本地电脑进行数据采集…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

采集场景 在爱采购搜索页面 https://b2b.baidu.com/c?q 输入关键词搜索,然后采集搜索后得到的多个厂家列表数据。   采集字段 厂家名称、主要产品、注册地址、营业期限、注册资本、实例商品价格等字段。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2020/9/28   八爪鱼版本:V8.1.22 如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服…

2023年9月5日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集Amazon商品评价数据,实例网址:https://www.amazon.com/product-reviews/B07211W6X2/ 。   采集字段 评论标题、评论星级、评论时间、评论内容、有用数、ASIN等字段。   鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇更新时间:2021/10/29    八爪鱼版本:V8.4.2 如果因网…

2023年9月5日 0条评论 73点热度 0人点赞 365crawadmin 阅读全文