网页上的数据类型十分丰富:文本、图片、链接、源码等。在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。 示例网址:https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0   1、抓取文本:抓取显示在页面中的文本   操作:鼠标选中页面中的文本,在弹出的操作提示框中选择【采集…

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

我们在采集数据过程中,可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。 可通过自定义定位元素的方式,修改字段定位XPath,对数据的位置进行正确的定位。 请注意,本教程需要一定的XPath知识和相对XPath知识,建议在学习XPath和相对XPath后,再看本教程。 XPath:https://www.bazhuayu.com/tutorial8/81xpath 相对XPath:https://www.bazhuayu.com/tutorial8/81xpath   提取数据一般分为…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。【使用模板采集数据】之前已经讲过,点击学习   【自定义配置采集数据】稍微复杂一点,我们将用1个系列的8节课来学习。在这8节课中,我们将介绍使用八爪鱼自行配置采集流程,进行网页数据采集的基础知识。学完这8节课,能够轻松采集到90%的网页数据。   第1课:自定义配置采集数据基本介绍(含智能识别) 本课 第2课:采集单个数据 第3课:采集列表数据 第4课:采集表格数据 第5课:需依次点击多个链接进入详情,采集每个详情…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。 本文将详细讲解【自定义任务编辑界面介绍】,【自定义配置采集数据】可点击开始学习 。   一、自定义采集界面介绍 自定义任务界面是在自定义采集模式下出现的界面,该界面包含了不同的功能分区,自定义模式界面所下图示。   1)左上角红框为任务名,双击后可进行修改,修改完成后点击其他位置即可进行保存。      2)界面右上角为【切换浏览模式】、【设置】、【点击隐藏数据预览】、【点击隐藏流程图】、【保存】及【采集】按键。…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文

Web发布中内容发布之前的版本一直是粘贴发布中抓包的数据,然后软件自动分析表单名与表单值,但是对于一些特殊要求的发布网站,这个功能就不大好用,因此,新版本添加了新的自定义发布数据的功能,可以更方便的处理一些复杂的网站。 下面介绍下自定义数据的功能: (1)对于使用json或者其他特殊格式作为post的网站,那么就可以直接使用自定义数据。 (2)对于一些表单项个数不确定的网站。 ①比如发布商品时,有添加发布图片,发布图片有几个那么就需要添加几个表单项,那么就必须要使用自定义数据,发布的图片在采集数据的标签中就定义好,…

2023年9月4日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文