06 翻页以采集多页数据

2023年9月5日 37点热度 0人点赞 0条评论

通过前几课的学习,我们已经学会了采集一页数据:列表表格点击链接进入详情的数据

 

在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢?

 

本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。

 

一、点击 【下一页】按钮翻页

 

点击页面上的 下一页按钮翻页,是最常见的翻页方式。这个网站就是如此:http://www.ggzy.gov.cn/information/info/news/news.shtml

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

在八爪鱼中该如何实现翻页?以下为具体操作步骤。

 

步骤一、先创建1个任务

 

经过前几课的学习,我们已经学会了如何采集单个页面上的列表、表格、点击链接进入详情的数据。根据需求,先配置好1个采集1页数据的任务。

在这里,我以 采集列表数据 为例。先建立一个【循环-提取数据】步骤。

 

 

现在,第1页上的列表数据就全被采集下来了。接下来,我们想让八爪鱼自动翻页,去采第2页、第3页.....直到最后1页的数据。这就需要建立一个【翻页循环】。

 

步骤二、建立【翻页循环】

 

找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】这样,用【下一页】按钮创建【循环翻页】的步骤就完成了。可以看到流程图中出现一个【循环翻页】的步骤,这就表明我们已经成功创建好了【循环翻页】,八爪鱼就能自动完成翻页了。

 

为什么要【循环点击下一页】?它的意思就是,让八爪鱼不断的多次点击 【下一页】进行翻页,以实现采集第2页,第3页......直到最后一页数据。这跟我们在浏览器中,不断点击【下一页】按钮翻页,逻辑是相同的。

 

 

 

特别说明:

a. 如果出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的,都用于创建循环翻页。

 

 

步骤三、启动采集

 

1、点击【保存并启动】,选择【启动本地采集】。启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集,点击查看详细说明

  

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。

  

 

示例数据:

 

 

 

关于【循环翻页】的几个技巧分享:

 

1、可以先建【循环翻页】,也可先建【循环-提取数据】。

 

八爪鱼会自动判断并调整步骤在流程中的位置。对于点击【下一页】翻页,标准流程如下图所示,它的执行逻辑是:【打开网页】→【采集第1页列表数据】→【翻到第2页】→【采集第2页列表数据】......【翻到最后1页】→【采集最后1页列表数据】→【所有页数据采完,自动结束采集任务】。逻辑执行详情请查看 第8课:采集原理与流程执行逻辑

 

 

 

2、可通过【限制翻页次数】,控制翻页的次数。

如果只需要采集前3页数据,则设置翻页次数为【3】。

 

 

 

 

二、其他特殊的翻页

 

除了点击【下一页】 进行翻页外,还有其他特殊的翻页方式。

 

1、点击【加载更多】、【再显示20条】等按钮进行翻页。

常见的网页有:搜狗微信首页、微博评论。

此类翻页解决方法请查看教程 点击【加载更多】或【再显示20条】等按钮翻页

 

 

 

2、无翻页按钮,需不断向下滚动页面,加载出新数据。

常见的网页有:百度图片搜索、今日头条首页。

此类翻页解决方法请查看教程 滚动加载数据采集方法

 

 

3、无翻页按钮,只有一排数字,需点击数字进行翻页。

此类翻页解决方法请查看教程 无【下一页】按钮,点击数字进行翻页

 

 

 

作者:Candice
编辑:Candice

 

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论