采集场景 打开B站详情页,采集视频详情页数据。 示例网址: https://www.bilibili.com/video/BV1ai4y1x7bB https://www.bilibili.com/video/BV1Wv411172X https://www.bilibili.com/video/BV17k4y117BJ   采集字段 标题、时长、发布时间、总播放数、总弹幕数、发布者、硬币、收藏量、点赞数、分享数、视频介绍、视频标签、评论数   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为…

2023年9月5日 0条评论 95点热度 0人点赞 365crawadmin 阅读全文

作为国内最大的电商平台之一,京东数据采集具有多个维度。   有人需要采集商品信息,包括品类、品牌、产品名、价格、销量等字段,以了解商品销售状况、热门商品属性,进行市场扩大和重要决策;   有人需要采集产品评论,以明确产品优缺点、市场意向,进行新商品调研优化;   除了以上之外,还有很多的应用场景等待挖掘。下面为大家详细介绍京东数据采集的方法。   京东数据采集的方法   既然京东数据采集极为需要势在必行,那么该如何进行操作呢?是找到要采集的京东网址,将数据一条条复制粘贴到excel表格中?还是找一个爬虫工程师,写爬…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

配置好了八爪鱼采集规则后,我们可以对规则进行一些优化,以更稳定地采集更完整的数据。 优化方向主要有以下四种:   一、设置执行前等待 二、设置/调整Ajax超时 三、设置页面滚动 四、检查新标签的勾选是否正确     一、设置执行前等待 执行前等待的意思是:在当前步骤等待一段时间,再执行下一个步骤。   1、为什么要设置执行前等待? 原因①:避免执行步骤速度太快,很多时候网页还没加载完全就提取数据了,导致采集不到目标数据。 原因②:对于一些防采集严重的网站,如淘宝、大众点评等,适当的设置执行前等待,放慢采集速度,可…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文

很多用户在制作规则的时候,可能会遇到总是在一二页循环提取数据,而不会转到第三页的情况,这其实是由于Xpath定位不好导致的,我们需要通过修改Xpath来解决这个翻页问题。   在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的。 示例网址:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%A4%A7%E6%95%B0%E6%8D%AE&a…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

数据采集下来之后,有时候格式不是我们想要的,或者只想从一段数据里提取特定数据。以上需求,可通过八爪鱼的【格式化数据】功能实现。 本教程将结合实例,具体讲解。   一、【格式化数据】设置的位置   示例网址:https://book.douban.com/subject/4913064/   【格式化数据】是对提取到的字段进行格式化操作,我们先按照采集需求,提取字段。本示例中,我们提取此网页中的图书标题、图书简介和图片网址。   鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   …

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集采集游天下不同城市的租房信息。   采集字段 城市、标题、出租人、地址、价格、标题链接、坐标等。     点击图片可查看高清大图,下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/06/20    八爪鱼版本:V8.5.2 目标数据,请联系官方客服,我们将及时修正。   采集步骤   步骤一、打开网页 步骤二、提取数据 步骤三、创建【循环列表】 步骤四、提取数据 步骤五、启动采集   以下…

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

采集场景 在hotsom网站页面https://export.hotosm.org/en/v3/exports循环点击每个链接,采集详情页展示的详细数据。 列表页面:     详情页面:     采集字段 Description、Id、Project Area、Createdat、Createdby、published、ExportFormats、OSMAnalysis、Status、ID、Finished、Duration、ShapeFile、ShapeFileUrl、GeoPackage、GeoPackageU…

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

通过前几课的学习,我们已经学会了 采集列表数据、采集表格数据。如果一个页面上很多同类链接,需要依次点击每个链接进入详情页,然后采集每个详情页中的数据呢?   以百度百家号为例。现在有一个百家号资讯列表的网页:https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2 可以看到,网页上有很多资讯链接,点击每个资讯链接进入详情页,每个详情页都有…

2023年9月5日 0条评论 62点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集B站UP主主页的视频列表数据。 示例网址: https://space.bilibili.com/33775467 https://space.bilibili.com/2282611 https://space.bilibili.com/21975459   采集字段 发布者、关注数、粉丝数、认证、UID、标题、视频连接、总播放数、发布时间、时长、视频封面链接   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。 本文将详细讲解【自定义任务编辑界面介绍】,【自定义配置采集数据】可点击开始学习 。   一、自定义采集界面介绍 自定义任务界面是在自定义采集模式下出现的界面,该界面包含了不同的功能分区,自定义模式界面所下图示。   1)左上角红框为任务名,双击后可进行修改,修改完成后点击其他位置即可进行保存。      2)界面右上角为【切换浏览模式】、【设置】、【点击隐藏数据预览】、【点击隐藏流程图】、【保存】及【采集】按键。…

2023年9月5日 0条评论 73点热度 0人点赞 365crawadmin 阅读全文
1234513