采集场景
在维基百科网页面 https://zh.wikipedia.org/wiki循环输入多个关键词,采集搜索后展示的多个名词解释的详细数据。
采集字段
岛屿、位置、坐标、群岛、面积 、最高海拔、最高点、人口等字段。
采集结果
采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:
教程说明
本篇制作时间:2022/2/28 八爪鱼版本:V8.5.1.21611
采集步骤
步骤一、打开网页
步骤二、批量输入多个关键词并搜索
步骤三、提取检索后的百科数据
步骤四、编辑字段 清洗数据
步骤五、启动采集 导出数据
以下为具体步骤:
步骤一、打开网页
在首页【输入框】中输入目标网址 https://zh.wikipedia.org/wiki ,点击【开始采集】,八爪鱼自动打开网页。
步骤二、批量输入多个关键词并搜索
打开网页后,通过以下几步,实现批量输入多个关键词。
1、输入1个关键词并搜索
2、批量输入多个关键词
1、输入1个关键词并搜索
选中维基百科搜索框,在操作提示框中,点击【输入文本】,输入关键词并确定保存。
选中【搜索】按钮,在操作提示框中,点击【点击该按钮】,出现关键词的搜索结果。
八爪鱼自动识别了Ajax点击并设置了超时1秒,为保证数据加载充分,修改Ajax超时为5秒。
2、批量输入多个关键词
① 在【打开网页】步骤后,添加一个【循环】。
② 将【输入文本】和【点击元素】都拖入【循环】中。调整完毕如下图。
③ 进入【循环】设置页面。选择循环方式为【文本列表】
再点击编辑按钮,将我们准备好的关键字输进去(可同时输入多个关键字,一行一个即可)后保存。
④ 进入【输入文本】设置页面,勾选【使用当前循环里的文本来填充输入框】后保存。
步骤三、提取检索后的百科数据
依次点击步骤中的【循环】、【输入文本】和【点击元素】,页面展示检索结果。
选中页面中标题,操作提示框中选择【采集该元素的文本】。同理,依次提取 岛屿、位置、坐标、群岛、面积 、最高海拔、最高点、人口等字段字段。
步骤四、定位字段 清洗数据
在【当前页面数据预览】页面,可删除多余字段,修改字段名,移动字段顺序,格式化字段等。 这里切换为纵向布局方便修改。
①在【当前页面数据预览】页面,双击【字段名】一栏直接修改字段名称。
② 在【当前页面数据预览】页面,点击【岛屿】字段的更多,选择【格式化数据】处理。
添加一个【替换】步骤,将”[编辑]“替换为”“。(”“即空着不填)
③在【当前页面数据预览】页面,双击【字段设置】一栏直接修改字段XPath。
注:配置流程时,八爪鱼会为每一个步骤生成一个XPath,一般情况无需修改。但当页面结构发生变化时,可能会出现错位、定位不到等问题,因此需要手动进行修改。本例中字段和对应的XPath如下图所示:
步骤五、启动采集 导出数据
1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。
2、采集完成后,可以导出为多种格式,这里选择Excel格式。
3、等待导出完成,点击【打开文件】即可查看Excel文件。
Excel样例数据:
文章评论