使用蜜蜂采集器实现博客搬家功能

2023年9月5日 51点热度 0人点赞 0条评论

蜜蜂采集器的使用教程 - 实现博客搬家

博客,即网络日志,是一种通过互联网发布个人或团体的观点、经验、知识等内容的方式。当前,除了传统的文字和图片形式的博客外,还出现了一些新颖和有趣的博客形式,如视频博客(Vlog)、音频博客(Podcast)、动画博客(Animation Blog)等。

博客搬家,就是将博客从一个平台或者域名迁移到另一个平台或者域名的过程。博客搬家的原因有很多,比如平台的性能、稳定性、功能、设计、商业化等方面的不满意,或者个人的喜好、需求、目标等方面的变化。

十多年前,博客市场格局基本定型,一些公司陆续退出博客领域。其中,微软的空间服务关闭,各博客运营商为争夺其用户,陆续推出了“一键搬家”功能,市场上也出现了不少“博客搬家”工具。

近年来,博客逐渐没落,更多的人倾向于自己搭建博客站点,这使得博客搬家变得更加必要和重要。

由于不便以其他博客平台作为演示站点,所以,这里以自己搭建的两个博客站点互相迁移为例。现在,我们开始从ZBlog站点迁移到WordPress站点,演示如何使用蜜蜂采集器实现博客搬家,并介绍网址采集时如何使用翻页采集功能。

先搭建一个ZBlog站点,并填充一部分测试数据,此处略去搭建过程。ZBlog站点为采集源站点。再搭建一个WordPress站点,此处略去搭建过程。WordPress站点为迁移的目标站点。为方便测试,这里不考虑栏目分类问题。实际采集时,应该考虑将源站和目标站的栏目分类一一对应。

采集规则

新建采集规则。“列表页”添加普通网址,网址为ZBlog站点首页。这里不考虑栏目分类问题。

网址采集。网址标签,区域起始为<div id="divMain">,区域结束为<div class="pagebar">,解析方式为自动解析。翻页采集设置中,GET方法获取翻页,翻页控件的区域起始为<div class="pagebar">,翻页控件的区域结束为/div>,翻页网址的解析方式为自动解析。设置完成后,测试网址采集。

网址采集测试

内容采集。在标签列表中,点击“导入”,选择WordPress发布模块,然后导入标签列表,这些标签就是发布模块需要用到的标签。将标签别名附件的生成方式设置为格式化生成 - 固定字符串,且内容为空。

  • 标题:提取方法为字符串截取。起始字符串为<h2 class="post-title">,结束字符串为<span class="post-date">
  • 发布时间:提取方法为字符串截取。起始字符串为<span class="post-date">,结束字符串为</span>
  • 内容:提取方法为字符串截取。起始字符串为div class="post-body">,结束字符串为</div>
  • 标签:提取方法为字符串截取。起始字符串为<p class="post-tags">,结束字符串为</p>。添加标签数据二次处理项“HTML标签过滤”,剔除转义空格、首尾空白字符、回车换行以及其他所有HTML标签。加标签数据二次处理项“字符串替换”,将字符串“标签:”替换为空。
内容采集测试

内容发布

如果还没有WordPress站点发布模块,可以先去应用市场下载导入。打开主菜单“帮助”——“应用市场”。类型选择“站点发布模块”。找到应用“WordPress通用站点发布模块”,点击“下载”。

添加WordPress站点的用户Cookie到Cookie管理器中。然后在“发布到站点”管理器中,添加一个发布配置。

发布到站点

内容发布。添加一个发布通道,并选择刚刚的发布配置。测试内容发布。

内容发布测试

任务运行。运行采集任务,效果如下图。

任务运行

至此,就实现了博客搬家。但实际情况下,我们可能还得使得栏目分类一一对应,如果栏目较多,可以使用自动分类功能;我们也可能需要迁移图片等,这就得使用文件下载和文件上传功能。

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论