字段格式化

数据采集下来之后，有时候格式不是我们想要的，或者只想从一段数据里提取特定数据。以上需求，可通过八爪鱼的【格式化数据】功能实现。本教程将结合实例，具体讲解。一、【格式化数据】设置的位置示例网址：https://book.douban.com/subject/4913064/ 【格式化数据】是对提取到的字段进行格式化操作，我们先按照采集需求，提取字段。本示例中，我们提取此网页中的图书标题、图书简介和图片网址。鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图下文其他图片同理 …

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

采集场景采集采集游天下不同城市的租房信息。采集字段城市、标题、出租人、地址、价格、标题链接、坐标等。点击图片可查看高清大图，下文其他图片同理采集结果采集结果可导出为Excel，CSV，HTML，数据库等多种格式。导出为Excel示例：教程说明本篇制作时间：2022/06/20 八爪鱼版本：V8.5.2 目标数据，请联系官方客服，我们将及时修正。采集步骤步骤一、打开网页步骤二、提取数据步骤三、创建【循环列表】步骤四、提取数据步骤五、启动采集以下…

2023年9月5日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

采集场景在hotsom网站页面https://export.hotosm.org/en/v3/exports循环点击每个链接，采集详情页展示的详细数据。列表页面：详情页面：采集字段 Description、Id、Project Area、Createdat、Createdby、published、ExportFormats、OSMAnalysis、Status、ID、Finished、Duration、ShapeFile、ShapeFileUrl、GeoPackage、GeoPackageU…

2023年9月5日 0条评论 77点热度 0人点赞 365crawadmin 阅读全文

通过前几课的学习，我们已经学会了采集列表数据、采集表格数据。如果一个页面上很多同类链接，需要依次点击每个链接进入详情页，然后采集每个详情页中的数据呢？以百度百家号为例。现在有一个百家号资讯列表的网页：https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2 可以看到，网页上有很多资讯链接，点击每个资讯链接进入详情页，每个详情页都有…

2023年9月5日 0条评论 70点热度 0人点赞 365crawadmin 阅读全文

采集场景采集B站UP主主页的视频列表数据。示例网址： https://space.bilibili.com/33775467 https://space.bilibili.com/2282611 https://space.bilibili.com/21975459 采集字段发布者、关注数、粉丝数、认证、UID、标题、视频连接、总播放数、发布时间、时长、视频封面链接点击查看高清大图，下文其他图片同理采集结果采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

在客户端界面介绍里，我们简单讲了数据采集的2种模式：【使用模板采集数据】和【自定义配置采集数据】。本文将详细讲解【自定义任务编辑界面介绍】，【自定义配置采集数据】可点击开始学习。一、自定义采集界面介绍自定义任务界面是在自定义采集模式下出现的界面，该界面包含了不同的功能分区，自定义模式界面所下图示。 1）左上角红框为任务名，双击后可进行修改，修改完成后点击其他位置即可进行保存。 2）界面右上角为【切换浏览模式】、【设置】、【点击隐藏数据预览】、【点击隐藏流程图】、【保存】及【采集】按键。…

2023年9月5日 0条评论 78点热度 0人点赞 365crawadmin 阅读全文

有的网页包含iframe框架，在八爪鱼中也需进行相应设置，本教程将详细讲解。 1、什么是iframe框架？通俗来说，iframe框架就是在同一个页面中有多个网页，也就是网页中嵌套了其他的网页。 iframe框架可能有一层，也可能有多层。如何判断网页有几层iframe框架？借助火狐浏览器的irebug和firepath插件，我们可以很容易地判断出网页有几层iframe框架。如果没有安装，请查看火狐浏览器的irebug和firepath插件安装教程。安装好后，点击【Top Window】位置，会…

2023年9月5日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

在采集数据过程中，我们可能有这样的：第一次采集所有数据，需要再采集的时候只需要采集网络就添加的数据，这时候就可以使用八爪鱼的【增量采集】功能。【增量采集】通过对比URL来实现增量数据的采集：将当前URL与历史URL对比，如果相同URL与历史URL相同，则跳过不采集。反之则采集。一、功能说明在任务配置页面，点击【采集配置】按钮，进入配置页面：进入设置页面后，可以看到：【启用增量采集】的选项。同时提供两种网址对比方式：【对比整个URL，包含所有参数】：当前整条网址与之前采集过的网址做对比，如果…

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

在做新闻类数据采集的时候，新闻的正文一般都有多个段落。如果想将正文完全按照原文结构顺序采集下来，并将所有内容合并到一条数据中，可以用文章段落构建循环，然后设置【同一字段多次提取合并为一行】。本文将以网易财经新闻采集为例详细说明。示例网址：http://money.163.com/17/0706/01/COKG34EG002580S6.html 先按照需求提取数据。将每一段文本看做一个列表，按照列表数据采集的方法，创建循环列表。如下图所示：启动采集以后发现，得到很多条数据，一段对应一条数…

2023年9月5日 0条评论 74点热度 0人点赞 365crawadmin 阅读全文

XPath对于八爪鱼数据采集十分重要。绝大多数的数据采集问题，都可以通过写一条正确的XPath解决。本课将详细讲解XPath相关的问题。一、HTML 与 XPath 我们日常浏览的网页本质上都是一个个HTML文档。打开网页后，鼠标右键打开菜单，选择【查看网页源代码】，就能看到该网站的HTML文档。网页上的数据，在其HTML文档中都有一个对应位置。鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图下文其他图片同理如何在HTML文档中找到想要的数据？XPath是最常用的语言…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

1…7 8910 11…13

字段格式化

【游天下】房源数据采集

地图类网站数据采集

05 从列表进入详情页采集

【B站】UP主主页视频采集

自定义任务编辑界面介绍

网页包含iframe框架处理办法

增量采集功能说明

字段合并

XPath系统学习与实例

近期文章

近期评论