在进行数据采集时,可能会遇到这样的情况:采集结果中有重复数据。 八爪鱼提供两种数据去重方式,满足不同程度的去重需求。 一、按整条数据去重(默认) 在数据采集完成后,系统有一套默认的去重机制:某一行数据(一行数据即一条数据)的全部字段内容与其他行内全部字段内容都相同,则认为该行数据是重复数据,去重后仅保留重复数据中的第1条。 例1:第1、4条数据全部字段内容都相同,它们是重复数据,去重后仅保留第1条数据。 二、按字段去重(需手动设置,8.1.16及以上版本支持) 在制作规则时,可以设置按字段…
我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。 一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。 但有时候我们点击了列表页某一项数据之后,点击“选中全部”,但是循环定位到的数据并没有包含咱们要的所有数据项,这个时候可以通过手动修改xpath,让循环定位到咱们所有需要的数据, 这就是我们本节课所要讲的内容。 实例网址:https://www.haodf.com/hospital/list.html 基础操作:…
经过前几课的学习,我们已经掌握了列表数据、表格数据、点击多个链接后的详情页数据、实现翻页 的任务配置方法。 任务配置完成后,即可启动采集任务,全自动的采集数据。配置好的任务可【启动本地采集】运行在本地电脑中,也可【启动云采集】运行在由八爪鱼提供的云服务器上。本地采集和云采集完成后得到的数据,可以Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种形式导出。 一、【启动本地采集】和【启动云采集】 1、【启动本地采集】 【启动本地采集】即用自己的本地电脑进行数据采集…
采集场景 在爱采购搜索页面 https://b2b.baidu.com/c?q 输入关键词搜索,然后采集搜索后得到的多个厂家列表数据。 采集字段 厂家名称、主要产品、注册地址、营业期限、注册资本、实例商品价格等字段。 点击查看高清大图,下文其他图片同理 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例: 教程说明 本篇制作时间:2020/9/28 八爪鱼版本:V8.1.22 如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服…
采集场景 采集Amazon商品评价数据,实例网址:https://www.amazon.com/product-reviews/B07211W6X2/ 。 采集字段 评论标题、评论星级、评论时间、评论内容、有用数、ASIN等字段。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例: 教程说明 本篇更新时间:2021/10/29 八爪鱼版本:V8.4.2 如果因网…
User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。 由于网站会对UA进行过滤,有些老旧的UA会打不开该网页。此时就可以通过切换不同的UA来打开网页。以下教程讲解如何获取浏览器中的UA,以及将获得的UA保存在八爪鱼中。 方法一:以Chrome(谷歌)浏览器为例,在地址栏输入about:version,即可出现如下信息。图中的【用户代理】即【User-A…
我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。 一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。但有时候也会遇到一些问题:比如列表中有的部分不是我们想要的,需要进行丢弃。 这时候,可以手动修改XPath去定位列表丢弃不需要的部分。也可以用分支判断丢弃。 以下通过实例进行说明。 实例网址:https://weibo.com/2803301701?refer_flag=1001030103_ 一…