采集器对加减乘除等运算功能支持不够,一般通过调用插件实现复杂功能。也有的采集器支持内置脚本引擎实现加减乘除运算。蜜蜂采集器在当前版本中增加了内置JavaScript脚本的支持,采用V8引擎执行JavaScript脚本,从而实现加减乘除等运算。
采集器对加减乘除等运算功能支持不够,一般通过调用插件实现复杂功能。也有的采集器支持内置脚本引擎实现加减乘除运算。蜜蜂采集器在当前版本中增加了内置JavaScript脚本的支持,采用V8引擎执行JavaScript脚本,从而实现加减乘除等运算。
本文以微博评论的采集为例,简单介绍一下数据采集的分析思路,以及JSON数据的解析、发布到文件的文件模板编写等。 环境准备 VSCode: 全称Visual Studio Code,是微软公司开发的一款跨平台文本编辑器,支持多种语言和文件格式的编辑。下载地址:点击下载 蜜蜂采集器: 一款数据采集软件。 页面分析 使用浏览器打开微博热搜榜,打开其中一个热搜,进入后找到其中一个评论较多的微博文章页面(复制微博地址到新标签页中打开)。按F12打开浏览器的开发者工具。刷新页面,并不断下拉加载更多评论,再分析&ld…
蜜蜂采集器的使用教程 - 使用JavaScript内置脚本引擎进行加减乘除运算 采集器对加减乘除等运算功能支持不够,一般通过调用插件实现复杂功能。也有的采集器支持内置脚本引擎实现加减乘除运算。蜜蜂采集器在当前版本中增加了内置JavaScript脚本的支持,采用V8引擎执行JavaScript脚本,从而实现加减乘除等运算。 本文以高赞评论的采集与分析为例,演示如何使用蜜蜂采集器的内置JavaScript脚本功能。 需求说明 很多短视频或文章评论下,都会有一些高赞评论。那么,这些高赞评论都有哪些特征呢?如何才…
采集场景 在股吧中输入某一批股票的网址,打开其对应的股吧,会展示很多讨论帖。点击每个讨论帖进入详情页,采集详情页的帖子信息和评论信息。 示例网址:http://guba.eastmoney.com/list,300869.html http://guba.eastmoney.com/list,002108.html 采集字段 股吧名称、帖子作者名称、发布时间、文章标题、文章内容、评论者、评论时间、评论内容等内容。 点击查看高清大图,下文其他图片同理 采集结果 采集结果可…
采集场景 打开雪球网 https://xueqiu.com/,页面显示雪球热帖列表,点击每一个帖子的标题可进入详情页,查看并采集详情页里面的数据内容。 采集字段 帖子作者、标题、文章内容、发布时间、评论数、评论者、评论内容、评论时间等。 点击查看高清大图,下文其他图片同理 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例: 教程说明 本篇制作时间:2022/6/10 八爪鱼版本:V8.5.2 如果因网页改版造成网址或步骤无效,无法收集到目标数据…
采集场景 在豆瓣读书短评页面 https://book.douban.com/subject/4011670/comments/ , 采集图书评论信息。 采集字段 作品名、有用数、评论时间、评论内容、星级、当前时间、页面网址 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例: 教程说明 本篇制作时间:2022/5/27 八爪鱼版本:V8.5.4 如果因…
采集场景 在微博主页(https://weibo.com/)登录后,循环打开微博博文链接,采集博文链接的一级评论数据。实例地址:https://weibo.com/1977661791/I7PgktlCh 。 采集字段 博主用户名、发布时间、博文内容、转发数、评论数、点赞数、评论人、评论内容、评论时间。 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。 教程说明 本篇更新时间:2023/04/20 八爪鱼版本:V8.6.0 如因网页改版导致网址或步骤无效,无法收集到…
采集场景 采集Amazon商品评价数据,实例网址:https://www.amazon.com/product-reviews/B07211W6X2/ 。 采集字段 评论标题、评论星级、评论时间、评论内容、有用数、ASIN等字段。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例: 教程说明 本篇更新时间:2021/10/29 八爪鱼版本:V8.4.2 如果因网…
问题: 电商网站的评论采集不出来怎么办? 回答: 部分电商网站会针对评论页面的展开进行限制,需要在软件内添加组件进行跳转。 智能模式需要先在右上角绿色按钮“预执行操作”界面添加以下组件:定时等待+滚动(设置成滚动一屏次数一次)+滚动+定时等待+点击(选中跳转到评论的按钮)+定时等待