蜜蜂采集器的使用教程 - 将采集数据导出到Excel表格 蜜蜂采集器的采集数据,有两种方法导出到Excel文件。一种是数据编辑窗口的“导出当前页记录”,一种是“发布到文件”中添加Excel文件发布模板。 导出当前页记录 打开任意采集规则的“数据编辑”窗口,点击“菜单”——“全部”——“导出当前页记录”,即可导出为csv格式文件…

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

采集器除了采集之外,还可以做很多有趣的事情。本文以蜜蜂采集器为例,介绍如何使用采集器实现论坛自动签到的功能。 环境准备 为了方便测试,我们自建一个测试用的论坛站点。自建环境如下: Discuz论坛系统:这里以Discuz论坛系统为例,搭建一个简单的论坛。具体搭建过程,此处略过。 每日签到:这个是Discuz插件,注意区分名称,全称是“DSU每日签到”。如果某个论坛的签到页面,带有dsu_paulsign字样,那一般就是使用了这个签到插件。 编写任务规则 这里,因为我们要实现自动签到功能。首先…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的使用教程 - 采集北京新发地市场农产品价格行情 本文以北京新发地市场农产品价格行情采集为例,介绍列表页网址中的时间格式化参数的使用方法。 页面分析 数据来源:北京新发地市场官网。 使用浏览器打开北京新发地市场官网,按F12打开浏览器的开发者工具。设置时间范围为当天,点击“查询”。可以看到.../getPriceData.html这样的POST请求,返回内容为JSON格式。我们试着将POST请求的网址和参数改装成GET方式,发现也可以正常访问,因此,就以此地址的GET请求来采集。 …

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

建站过程中,可能需要使用到百度网盘等第三方网盘。而不少情况下,网盘分享链接可能已经失效。如果网站长期存在大量失效链接,对网站用户留存的影响非常大。对此,比较好的处理方法,就是检测链接是否有效。  

2023年9月5日 0条评论 21点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的采集数据,有两种方法导出到Excel文件。一种是数据编辑窗口的“导出当前页记录”,一种是“发布到文件”中添加Excel文件发布模板。  

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

网站一般由栏目页和内容页组成。首页、主题、搜索结果等也可视为栏目页。 采集网页数据,即从栏目页获得内容页地址列表,从内容页提取所需数据。 网页数据采集有着广泛的用途。例如,金融数据采集分析,门户新闻实时监控,监控电商的库存变化/价格变化,舆情分析,客户资料采集,短视频/文章同步发布到各平台。因此,掌握好这门技术,是非常有必要的。 现在,我们做一个热点新闻推送到手机的功能。我们以某门户站点的新闻热搜榜单为采集对象,采集结果将发布到企业微信。 页面分析 使用Chrome浏览器,按F12打开浏览器的开发者工具,再打开门户…

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

本文以北京新发地市场农产品价格行情采集为例,介绍列表页网址中的时间格式化参数的使用方法。  

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器使用教程 - 对Crypto-JS加密的网页数据进行解密 有些网页会使用JavaScript的加密库Crypto-JS来加密网页数据,如果使用常规的思路进行处理,则非常麻烦,耗时耗力。本文介绍一种可以在蜜蜂采集器中使用的解密方法,供大家参考。 Crypto-JS的使用 Crypto-JS是一个基于MIT协议的JavaScript加密库,集成了MD5、SHA1、AES、DES、RC4等算法,可以非常方便地在网页或Node.js等场景中使用。网页中使用时,可以使用crypto-js.min.js。 加密时,可…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的采集数据,有几种方法导出到PDF文件。一种是数据编辑窗口的“导出当前页记录”,一种是“发布到文件”中添加文件发布模板。此外,也可以使用“发布到插件”的方式,通过插件发布到PDF文件。  

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

翻译功能,一般是调用第三方API。大概流程是,在一些提供翻译服务的站点注册帐号,然后申请API权限,之后再调用其API接口或SDK,即可实现翻译功能。 一般情况下,这些翻译机构都提供一定的免费额度,超出部分会按字数收费。 本文以蜜蜂采集器为例,调用百度翻译接口,实现文本翻译功能。 插件介绍 蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、消息通知插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程语言。 其中,数据处理插件是在一条采集记录中的所…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文