本例演示的是文件下载、FTP文件上传等功能。 分析 打开某网站移动版的热搜榜单,网址为 https://m.---.cn/?vt=4&pos=108&sudaref=sina.cn 。通过浏览器的开发者工具,可以看到网络请求 https://m.---.cn/api/container/getIndex?containerid=102803&openApp=0 为榜单内容,json格式。 采集规则 新建一个采集规则,命名为“图片下载测试&r…
本例演示的是文件下载、FTP文件上传等功能。 分析 打开某网站移动版的热搜榜单,网址为 https://m.---.cn/?vt=4&pos=108&sudaref=sina.cn 。通过浏览器的开发者工具,可以看到网络请求 https://m.---.cn/api/container/getIndex?containerid=102803&openApp=0 为榜单内容,json格式。 采集规则 新建一个采集规则,命名为“图片下载测试&r…
本文以微博评论的采集为例,简单介绍一下数据采集的分析思路,以及JSON数据的解析、发布到文件的文件模板编写等。 环境准备 VSCode: 全称Visual Studio Code,是微软公司开发的一款跨平台文本编辑器,支持多种语言和文件格式的编辑。下载地址:点击下载 蜜蜂采集器: 一款数据采集软件。 页面分析 使用浏览器打开微博热搜榜,打开其中一个热搜,进入后找到其中一个评论较多的微博文章页面(复制微博地址到新标签页中打开)。按F12打开浏览器的开发者工具。刷新页面,并不断下拉加载更多评论,再分析&ld…
现在很多网站采用异步请求方式来展现网页内容,而异步请求中的内容多为JSON格式。如果采用可视化采集技术,则要展示这样的页面内容,需要先加载各种css、js文件,速度较慢,网页的可视化展示也比较占用系统资源;采集网页过程中页面呈现可能偶尔会卡住,也非常影响体验。 对这种JSON格式异步数据的采集,如果采用传统采集方式,使用JSON表达式解析,也可以很方便。 下面以同花顺的“7×24小时要闻直播”为例,使用蜜蜂采集器进行简单的采集测试。 我们先使用浏览器访问同花顺的“7&…