采集场景 空天院遥感数据服务系统页面 http://eds.ceode.ac.cn/nuds/freedataquery设置查询条件,采集查询展示的卫星数据。 采集字段 数据标识 、卫星和传感器、 成像时间 、链接等字段。 采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例: 教程说明 本篇制作时间:2022/2/27 八爪鱼版本:V8.5.1.21611 采集步骤 步骤一、打开网页 步骤二、设置筛选条件…
通过前几课的学习,我们已经学会了采集一页数据:列表、表格、点击链接进入详情的数据。 在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢? 本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。 一、点击 【下一页】按钮翻页 点击页面上的 【下一页】按钮翻页,是最常见的翻页方式。这个网站就是如此:http://www.ggzy.gov.cn/information/info/news/news.shtml 鼠标放到图片上,右键,选择【在新标签页中打开图片…
采集场景 打开B站详情页,采集视频详情页数据。 示例网址: https://www.bilibili.com/video/BV1ai4y1x7bB https://www.bilibili.com/video/BV1Wv411172X https://www.bilibili.com/video/BV17k4y117BJ 采集字段 标题、时长、发布时间、总播放数、总弹幕数、发布者、硬币、收藏量、点赞数、分享数、视频介绍、视频标签、评论数 点击查看高清大图,下文其他图片同理 采集结果 采集结果可导出为…
作为国内最大的电商平台之一,京东数据采集具有多个维度。 有人需要采集商品信息,包括品类、品牌、产品名、价格、销量等字段,以了解商品销售状况、热门商品属性,进行市场扩大和重要决策; 有人需要采集产品评论,以明确产品优缺点、市场意向,进行新商品调研优化; 除了以上之外,还有很多的应用场景等待挖掘。下面为大家详细介绍京东数据采集的方法。 京东数据采集的方法 既然京东数据采集极为需要势在必行,那么该如何进行操作呢?是找到要采集的京东网址,将数据一条条复制粘贴到excel表格中?还是找一个爬虫工程师,写爬…
配置好了八爪鱼采集规则后,我们可以对规则进行一些优化,以更稳定地采集更完整的数据。 优化方向主要有以下四种: 一、设置执行前等待 二、设置/调整Ajax超时 三、设置页面滚动 四、检查新标签的勾选是否正确 一、设置执行前等待 执行前等待的意思是:在当前步骤等待一段时间,再执行下一个步骤。 1、为什么要设置执行前等待? 原因①:避免执行步骤速度太快,很多时候网页还没加载完全就提取数据了,导致采集不到目标数据。 原因②:对于一些防采集严重的网站,如淘宝、大众点评等,适当的设置执行前等待,放慢采集速度,可…
很多用户在制作规则的时候,可能会遇到总是在一二页循环提取数据,而不会转到第三页的情况,这其实是由于Xpath定位不好导致的,我们需要通过修改Xpath来解决这个翻页问题。 在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的。 示例网址:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%A4%A7%E6%95%B0%E6%8D%AE&a…
采集场景 采集采集游天下不同城市的租房信息。 采集字段 城市、标题、出租人、地址、价格、标题链接、坐标等。 点击图片可查看高清大图,下文其他图片同理 采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例: 教程说明 本篇制作时间:2022/06/20 八爪鱼版本:V8.5.2 目标数据,请联系官方客服,我们将及时修正。 采集步骤 步骤一、打开网页 步骤二、提取数据 步骤三、创建【循环列表】 步骤四、提取数据 步骤五、启动采集 以下…
通过前几课的学习,我们已经学会了 采集列表数据、采集表格数据。如果一个页面上很多同类链接,需要依次点击每个链接进入详情页,然后采集每个详情页中的数据呢? 以百度百家号为例。现在有一个百家号资讯列表的网页:https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86&medium=2 可以看到,网页上有很多资讯链接,点击每个资讯链接进入详情页,每个详情页都有…