01 自定义采集(含智能识别)

2023年9月5日 38点热度 0人点赞 0条评论

在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。【使用模板采集数据】之前已经讲过,点击学习

 

【自定义配置采集数据】稍微复杂一点,我们将用1个系列的8节课来学习。在这8节课中,我们将介绍使用八爪鱼自行配置采集流程,进行网页数据采集的基础知识。学完这8节课,能够轻松采集到90%的网页数据。

 

第1课:自定义配置采集数据基本介绍(含智能识别) 本课

第2课:采集单个数据

第3课:采集列表数据

第4课:采集表格数据

第5课:需依次点击多个链接进入详情,采集每个详情页中的数据

第6课:需要翻页采集

第7课:启动任务并导出数据

第8课:八爪鱼采集原理

 

完成全部8节课需要30-60分钟。课程中遇到任何问题,都可通过QQ群、客服系统等多种渠道联系我们。

 

本课,我们来看自定义配置采集数据基本介绍。

 

一、【自定义配置采集数据】

【自定义配置采集数据】有2种方式:使用【智能识别】和自己动手配置采集流程。

 

1、使用【智能识别】

【智能识别】,只需输入网址,自动智能识别网页数据。支持自动识别列表型网页数据、滚动和翻页。我们来看一个智能识别的示例。

 

示例网址:https://mall.ebaiyin.com/category_3.shtml

 

Step1:在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开始智能识别。

  

给它一点时间,等待智能识别完成。

 

 

特别说明:

a. 打开网页后,默认开启智能识别。识别过程中,随时可【取消识别】或【不再智能识别】

【取消识别】:立即取消本次智能识别,可点击【自动识别网页】再次启动。

 

 

【不再智能识别】:关闭自动智能识别,点击【自动识别网页】手动开启。也可在全局设置中,再次默认开启【智能识别】。

Step2:智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。

 

Step3:同时,可自动识别出网页的滚动和翻页。此示例网址,无需滚动,只需翻页,故只识别并勾选【翻页采集】。

 

 

Step4:自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,方便用户编辑修改。

 

 

Step5:然后,点击右上角的【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采集数据。

 

 

Step6:采集完成后,以所需的方式导出数据即可。

 

 

通过【智能识别】创建并保存的任务,会放在【我的任务】中。在【我的任务】界面,可以对任务进行多种操作并查看任务采集到的历史数据。在 客户端界面介绍 中有详细说明。

 

值得注意的是,目前自动识别,仅支持识别列表型网页、滚动和翻页,如果列表型网页识别失败,请联系客服反馈。如果不是列表型网页,或者有更高级的采集需求,请自行配置采集任务。

 

2、自己动手配置采集流程

 

什么是采集流程?采集流程(或叫采集任务,采集规则),是从特定网页上抓取数据的指令。每个网站的页面布局是不同的,因此采集流程不能通用。一般情况下,一个网站需要配置一个采集流程。

举个例子,京东商品采集和淘宝商品采集,需要配置2个不同的采集流程。下图中就是一个配置好的采集流程。

 

自己动手配置采集流程,可灵活应对各类采集场景,包括翻页、滚动、登录、AJAX网页等。

自己动手配置采集流程,需要掌握八爪鱼的基本操作。新手如何从0开始,自己动手配置一个采集流程并抓取到数据?从本系列第2课开始详细讲解。点击学习 第2课:采集单个数据

 

二、相关技巧介绍

 

在上述【智能识别】示例的Step4后,页面分为 网页显示当前页面数据预览 和 流程图 三大区块。自己配置采集流程,界面也是这三大区块。以下分享3个区块的操作技巧。

首先,鼠标移到3大区块之间,出现  按钮时,可通过拖拉改变区块的范围大小,便于配置规则。

 

1、网页显示


a. 
点击智能提示框中的  按钮 ,可将【操作提示框】隐藏起来。点击  按钮 ,将智能提示框调出。

 

2、当前页面数据预览

 

b. 鼠标移动到  按钮上,并拖住左右移动,可快速调整字段顺序。
c. 点击  按钮,可修改字段名称。
d. 选中【流程图】中的某个步骤,按【Delete】键可快速将其删除。也可点击   按钮,对字段进行更多操作:删除、复制、格式化等。
e. 点击  按钮,可快速添加字段:当前采集时间、当前网页信息、从网页中添加字段等。
f. 点击  按钮,可将「当前页面数据预览」隐藏起来,再次点击右上角的则再次显示在页面上。
g. 选中字段,网页同步高亮显示,方便找到字段在网页中的位置。

 


3、流程图

 

h. 鼠标移动到步骤上,该步骤颜色变深。
i. 点击每个步骤框,进入步骤基础、高级选项设置页面。
j. 点击  按钮,可对当前步骤进行更多操作:复制、粘贴、删除等。
k. 将鼠标移动到流程中的 位置,会出现  按钮。点击 按钮,可快速添加流程步骤。
l. 点击 按钮,可将流程图隐藏起来,再次点击界面右上角的则再次显示在页面上。

 

 

m. 鼠标移动到【流程图】展示区时,按住【Ctrl】键同时滚动鼠标,可放大/缩小流程图。

 

n. 点击「全部字段」,可显示当前任务中的全部字段。选中某个字段,网页相应位置、数据预览中都会高亮显示,可用于检查字段是否有遗漏,命名是否有误等。

 

作者:Aisling

编辑:Aisling

 

 

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论