地图类网站数据采集

2023年9月5日 54点热度 0人点赞 0条评论

采集场景

在hotsom网站页面https://export.hotosm.org/en/v3/exports循环点击每个链接,采集详情页展示的详细数据。

列表页面:

 

 

详情页面:

 

 

采集字段

Description、Id、Project Area、Createdat、Createdby、published、ExportFormats、OSMAnalysis、Status、ID、Finished、Duration、ShapeFile、ShapeFileUrl、GeoPackage、GeoPackageUrl、OSM、 OsmUrl等字段。

 

采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

 

 

 

教程说明

本篇制作时间:2022/2/28    八爪鱼版本:V8.5.1.21611

 

采集步骤 

步骤一、打开网页 新建第一个任务

步骤二、提取链接网址

步骤三、启动采集 导出网址

步骤四、批量打开多个网址 新建第二个任务

步骤五、提取详情字段

步骤六、编辑字段

步骤七、启动采集 导出数据

 

以下为具体步骤:

 

步骤一、打开网页 新建第一个任务

 

在首页【输入框】中输入目标网址 https://export.hotosm.org/en/v3/exports ,点击【开始采集】,八爪鱼自动打开网页。

 

 

 

步骤二、提取链接网址

 

通过以下操作,创建循环提取的步骤:

选中页面上一个链接,在操作提示框中选择【选中全部】

 

 

继续在操作提示框中选择【采集以下链接地址】,生成采集流程。

 

 

为保证数据加载充分,为【循环列表】设置10S的执行前等待时间。

 

 

 

 

步骤三、启动采集 导出网址

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

2、采集完成后,可以导出为多种格式,这里选择Excel格式。

 

 

3、等待导出完成,点击【打开文件】,复制网址这一列数据。

 

 

步骤四、批量打开多个网址 新建第二个任务

 

在首页点击【新建】-【自定义任务】,将复制好的网址粘贴进去,点击【保存设置】,八爪鱼自动生成打开第一个网址,并生成一个循环打开网址的步骤。

 

 

步骤五、提取详情字段

 

网页打开后会跳出弹窗,为保证采集顺利,需设置自动勾选同意。

选中页面上的【I Agree】,操作提示框中选择【点击该元素】。

 

 

弹窗关闭后,选中页面中标题,操作提示框中选择【采集该元素的文本】。同理,依次提取中其他文本字段。

 

 

 

对于页面上的链接,鼠标选中后,操作提示框中选择【采集该链接的地址】。同理,依次提取它下面两个链接的地址。

 

 

 

步骤六、编辑字段

 

在【当前页面数据预览】页面,切换为纵向布局,双击【字段名】一栏直接修改字段名称。

 

 

 

步骤七、启动采集 导出数据

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

注:该流程符合拆分条件,支持并发采集加速,可自由选择采集方式。

 

 

2、采集完成后,可以导出为多种格式,这里选择Excel格式。

 

 

3、等待导出完成,点击【打开文件】即可查看Excel文件。

 

 

 

Excel样例数据:

 

 

 

 

 

 

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论