蜜蜂采集器的采集数据,可以通过“发布到文件”来发布到Word文档,也可以插件发布到Word文档。  

2023年9月16日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的使用教程 - 将采集数据发布到Word文档 蜜蜂采集器的采集数据,可以通过“发布到文件”来发布到Word文档。此外,也可以使用“发布到插件”的方式,通过插件发布到Word文档。这里仅介绍通过使用“发布到文件”方式来实现发布到Word文档的功能。 发布到Word文件 打开主菜单“发布”——“发布到文件”管理器。添加一个文件发布配置,其中的“输出文件名&…

2023年9月9日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

采集器除了采集之外,还可以做很多有趣的事情。本文以蜜蜂采集器为例,介绍如何使用采集器实现论坛自动签到的功能。 环境准备 为了方便测试,我们自建一个测试用的论坛站点。自建环境如下: Discuz论坛系统:这里以Discuz论坛系统为例,搭建一个简单的论坛。具体搭建过程,此处略过。 每日签到:这个是Discuz插件,注意区分名称,全称是“DSU每日签到”。如果某个论坛的签到页面,带有dsu_paulsign字样,那一般就是使用了这个签到插件。 编写任务规则 这里,因为我们要实现自动签到功能。首先…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的使用教程 - 采集北京新发地市场农产品价格行情 本文以北京新发地市场农产品价格行情采集为例,介绍列表页网址中的时间格式化参数的使用方法。 页面分析 数据来源:北京新发地市场官网。 使用浏览器打开北京新发地市场官网,按F12打开浏览器的开发者工具。设置时间范围为当天,点击“查询”。可以看到.../getPriceData.html这样的POST请求,返回内容为JSON格式。我们试着将POST请求的网址和参数改装成GET方式,发现也可以正常访问,因此,就以此地址的GET请求来采集。 …

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

建站过程中,可能需要使用到百度网盘等第三方网盘。而不少情况下,网盘分享链接可能已经失效。如果网站长期存在大量失效链接,对网站用户留存的影响非常大。对此,比较好的处理方法,就是检测链接是否有效。  

2023年9月5日 0条评论 21点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的采集数据,有两种方法导出到Excel文件。一种是数据编辑窗口的“导出当前页记录”,一种是“发布到文件”中添加Excel文件发布模板。  

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

网站一般由栏目页和内容页组成。首页、主题、搜索结果等也可视为栏目页。 采集网页数据,即从栏目页获得内容页地址列表,从内容页提取所需数据。 网页数据采集有着广泛的用途。例如,金融数据采集分析,门户新闻实时监控,监控电商的库存变化/价格变化,舆情分析,客户资料采集,短视频/文章同步发布到各平台。因此,掌握好这门技术,是非常有必要的。 现在,我们做一个热点新闻推送到手机的功能。我们以某门户站点的新闻热搜榜单为采集对象,采集结果将发布到企业微信。 页面分析 使用Chrome浏览器,按F12打开浏览器的开发者工具,再打开门户…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

本文以北京新发地市场农产品价格行情采集为例,介绍列表页网址中的时间格式化参数的使用方法。  

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器使用教程 - 对Crypto-JS加密的网页数据进行解密 有些网页会使用JavaScript的加密库Crypto-JS来加密网页数据,如果使用常规的思路进行处理,则非常麻烦,耗时耗力。本文介绍一种可以在蜜蜂采集器中使用的解密方法,供大家参考。 Crypto-JS的使用 Crypto-JS是一个基于MIT协议的JavaScript加密库,集成了MD5、SHA1、AES、DES、RC4等算法,可以非常方便地在网页或Node.js等场景中使用。网页中使用时,可以使用crypto-js.min.js。 加密时,可…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的采集数据,有几种方法导出到PDF文件。一种是数据编辑窗口的“导出当前页记录”,一种是“发布到文件”中添加文件发布模板。此外,也可以使用“发布到插件”的方式,通过插件发布到PDF文件。  

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文
123457