【微博】热搜榜采集

2023年9月5日 28点热度 0人点赞 0条评论

采集场景

在微博热搜榜(https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6)可实时查看微博热搜排名、热搜关键词和热搜数。点击每个热搜关键词可进入与其相关的微博列表页。我们需要采集以上数据。

 

采集字段

微博热搜排名、热搜关键词、热搜数、内容、发布时间、来源、收藏数、转发数、评论数、点赞数、采集时间和页面网址等字段。

 

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

 

 

教程说明

本篇制作时间:2021/10/28    八爪鱼版本:V8.4.2

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一、打开网页,切换浏览模式登录,获取登录状态的cookie

步骤二、生成列表循环采集流程,并点击进入详情页

步骤二、创建【循环列表】,采集所有微博列表中的数据

步骤三、修改【循环】的XPath,以去掉多余列表

步骤四、修改字段的XPath,以精准采集所有字段

步骤五、启动采集

 

以下为具体步骤:

 

步骤一、打开网页,切换浏览模式登录,获取登录状态的cookie

 

1、获取登录状态的cookie

在首页输入微博热搜榜网址 https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6 ,点击【开始采集】,八爪鱼自动打开网页。

点击切换【浏览模式】,在浏览模式下点击页面上的登录按钮,跳到扫码登录窗口,使用手机app扫码登录,登录成功之后关闭【浏览模式】,在打开网页步骤的【高级设置】里面勾选【使用指定的cookie】,然后点击获取当前页面的cookie,点击应用。

 

 

2、创建【循环列表】,采集热搜页面的列表数据

①、先选中页面上第一个列表的第一个单元格,再点击提示框右下角的【扩大选区】 按钮,选中至一整行。(  的作用是,扩大选中的范围。当前选中的是一个单元格,点一下, 选中的范围就扩大一个层级,即选中了一行)

②、在提示框中,选择【选中子元素】。第1个股票中的具体字段就被选中了,这时八爪鱼又自动识别到页面中其他股票列表具有相同的【子元素】(用红色框框起来)。

③、在提示框中,选择【选中全部】。可以看到页面中所有股票列表中的子元素也都被选中了,被绿色框框起来。

④、在提示框中,选择【采集数据】。这时候,八爪鱼就将表格中的字段都提取下来了。

 

 

3、删除多余字段,修改字段名

这里的链接字段没有用,我们删除,然后修改剩下字段的字段名(双击字段名即可修改)

4、点击红框中的关键词,进入详情页(注意要在循环列表里面配置,这样才能循环进入每一个关键词的详情页面)

在循环的当前项(用红色框框起来)中找到关键词并选中,在弹出的操作提示框中,选择【点击该链接】。

可以看到流程中生成了1个【点击元素】步骤,八爪鱼自动跳转到了详情页,然后提取详情页数据即可。

 

 

步骤二、创建【循环列表】,采集所有微博列表中的数据

 

1、创建【循环列表】

 

通过以下连续3步,创建【循环列表】,采集所有微博列表中的数据

① 选中页面上1个微博列表,包含所有字段(微博这个网页比较特殊,无法直接选中整块微博列表,可以先选中较小的范围,然后在操作提示框中不断点击  按钮,直至选中的区域扩大至整块列表,示例中点击了2次  按钮

② 继续选中页面上1个微博列表,包含所有字段(同①)

③ 点击【采集以下元素文本】

 

2、提取微博列表中的字段

在循环的当前项中(用红色框框起来),选中文本,在操作提示框中,选择【采集该元素文本】。

文本类字段都可这样提取,示例中提取了 内容、发布时间、来源、收藏数、转发数、评论数、点赞数、等字段。

 

 

特别说明:

a. 经过以上连续3步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有微博列表。但是这样会将整个列表作为一个字段提取下来,如果需要分开提取字段,请看下面的操作。

b. 为何通过以上3步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 

c. 选中一个范围后,在操作提示框中,点击   按钮,可扩大一层选中的层级。可连续多次点击,每点一次,选中范围扩大一个层级。

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论