中国天气网数据采集

2023年9月5日 22点热度 0人点赞 0条评论

采集场景

在中国天气网页面 http://www.weather.com.cn/forecast/循环点击,采集点击后展示的多个地区的天气列表数据。

 

 

 

 

 

采集字段

地区、发布时间、风力、日间天气、夜间天气、温度、详情网址等字段。

 

采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

 

 

 

 

教程说明

本篇制作时间:2022/2/27    八爪鱼版本:V8.5.1.21611

 

采集步骤 

步骤一、打开网页

步骤二、创建【循环点击-提取】,采集所有城市以展示天气数据

步骤三、编辑字段 清洗数据

步骤四、启动采集 导出数据

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页【输入框】中输入目标网址 http://www.weather.com.cn/forecast/ ,点击【开始采集】,八爪鱼自动打开网页。

 

 

 

步骤二、创建【循环点击-提取】,采集所有城市以展示天气数据

 

打开网页后,通过以下几步,实现批量采集多个地区的天气数据。

1、循环点击所有地区

2、采集该地区的数据

 

1、循环点击所有地区

选中一个地区,在操作提示框中,点击【选中全部】。

 

 

再点击【循环点击每个元素】,页面展示该地区的天气数据。

 

八爪鱼自动识别了Ajax点击并设置了超时1秒,为保证数据加载充分,修改Ajax超时为3秒

 

 

 

 

2、采集该地区的数据

 

注:对于该页面,一部分数据以文本形式展示,可直接提取;一部分以图片形式展示,需提取源码并格式化处理方可获取真正的数据。

 

① 选中地区字段,采集该元素的文本。同理,依次提取【发布时间】,【风力】,【温度】字段。

 

 

② 选中日间天气图标,采集该元素的Outer HTML。同理,提取【夜间天气】,等字段。

 

 

点击【添加字段】,选择【当前网页信息>网址】

 

 

步骤三、编辑字段 清洗数据

 

在【当前页面数据预览】页面,可删除多余字段,修改字段名,移动字段顺序,格式化字段等。 

在【当前页面数据预览】页面,双击字段名称进行修改。

 

 

在【当前页面数据预览】页面,选中字段后鼠标右键-元素抓取方式-元素属性-title。同理,依次对【夜间天气】等字段进行清洗操作。

 

 

 

步骤四、启动采集 导出数据

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

2、采集完成后,可以导出为多种格式,这里选择Excel格式。

 

3、等待导出完成,点击【打开文件】即可查看Excel文件。

 

Excel样例数据:

 

 

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论