蜜蜂采集器的使用教程 - 采集一次再发布到多个站点的几种方法 在数据采集过程中,常常需要将采集的内容发布到多个不同的站点,但各个站点的CMS、插件等可能各有不同,从而导致发布的数据格式也有所差异。对此,我们一般可以采取以下几种方法。 主站采集、子站复制 从数据源采集数据并发布到主站后,再从主站采集并发布到其他子站。其优点是简单明了,方法统一。但缺点也很明显,采集会消耗更多的系统资源,同时维护繁琐。一旦主站更换主题或优化页面布局,可能会导致子站数据出错,维护工作量较大。 一次采集多站发布,站点发布模块中对标签数据二次…

2024年2月19日 0条评论 176点热度 1人点赞 365crawadmin 阅读全文

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。这里的知识一般指规则、概念、规律及模式等。 数据挖掘建模过程 定义挖掘目标 针对具体的数据挖掘应用需求,首先要非常清楚,本次挖掘的目标是什么?系统完成后能达到什么样的效果?因此…

2023年9月7日 0条评论 75点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的POST方法采集数据,POST采集时的请求参数处理。  

2023年9月5日 0条评论 78点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的使用教程 - 2305版本的POST采集方法介绍 POST方法是一种HTTP请求方法,区别于GET方法。POST采集就是使用POST方法进行采集。 蜜蜂采集器自2305版本开始,支持POST参数分隔符方式的POST采集,同时废除了此前的2304版本中的域名指定POST采集的方法。 至此,软件支持网址翻页采集的POST方式采集和POST参数分隔符两种方式。其中,网址翻页采集的POST方式采集,可以查看软件帮助文档,功能仅限定在网址采集的翻页采集时。此处主要介绍POST参数分隔符方式的POST采集。 POS…

2023年9月5日 0条评论 90点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器2305版本的POST采集方法介绍。蜜蜂采集器自2305版本开始,支持POST参数分隔符方式的POST采集。  

2023年9月5日 0条评论 77点热度 0人点赞 365crawadmin 阅读全文

一、如何解决网页空白   在编辑采集流程步骤中,我们可能会遇到浏览器窗口的网页变成空白的页面。例如从列表页面点击进入详情页,在详情页提取数据时,浏览器中的网页就变成空白页 about:blank。     (浏览器窗口空白01)   这是因为【点击元素】(或【点击列表链接】)的【高级设置】中勾选了【在新标签中打开】,而导致的。   (浏览器窗口空白02)   有些网页的点击并不是开标签的,而ajax加载的(什么是ajax,请参考:Ajax网页设置方法)。   所以对这类网页空白的情况,我们可以通过不勾选【在新标签中…

2023年9月5日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

如果用八爪鱼配置规则,采集数据出现异常,我们如何快速找出并解决问题?如何更好与客服沟通? 本教程将讲解规则排错的基本思路与方法。   一、手动执行规则   做好采集规则以后,我们最好手动执行一下规则,检查规则是否满足采集需求。 手动执行规则是什么意思?打开流程图界面,按照从上至下,由内而外的逻辑(点击查看 流程执行逻辑教程),将每个步骤都点击一遍,并观察点击步骤后的页面情况。如果符合预期,没问题。如果不符合预期,则需要修改。   1、手动执行规则,符合预期   特别说明: a. 在点击【循环列表】时,最好选择除第1…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

一、云采集是什么?   云采集是指,使用由八爪鱼提供的云服务进行数据采集。八爪拥有5000+云服务器,7*24小时运行云采集服务。 我们在本地电脑上将任务配置完成,测试没有问题以后,就可以选择启动八爪鱼的云采集。 注意,团队版以上用户自带云采集功能。什么是团队版?点击查看 版本套餐 。   二、云采集优势   与【本地采集】对比,【云采集】具有以下优势: 1、采集速度更快。 2、实现无人值守。可关闭电脑、软件进行数据采集,真正实现无人值守。 3、定时采集。云服务器是7*24小时,可设置任务的定时启动工作。 4、数据…

2023年9月5日 0条评论 70点热度 0人点赞 365crawadmin 阅读全文

有很多网站,通过点击【加载更多】或【再显示20条】等按钮进行翻页。像 搜狗微信首页 、微博评论 等页面都是这种情况。   针对这种网页,八爪鱼V8.4.0版本新增【边点击边采集】功能,可以边点击【加载更多按钮】,加载出新数据,边采集每次加载的新数据。   例:设置点击20次,则点击1次后,采集第1次点击后加载的数据,继续点击第2次,采集第2次点击后加载的数据.......直至点击20次,采集第20次点击后加载的数据。   使用智能识别和自行配置的采集规则,都能实现【边点击边采集】,具体设置方法如下。   一、使用智…

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

有很多网站,需要向下滚动页面,才能加载出新数据。那相对应的,在八爪鱼中也需设置【页面滚动】。 适用场景:将滚动条直接下来到网页底部,出现类似【加载中】字样,稍后马上有新数据出现,且滚动条变短回弹。 常见的网页:澎湃新闻首页、今日头条首页、百度图片搜索、新浪微博首页,都是这种情况。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   以澎湃新闻首页为例。https://www.thepaper.cn/,我们需采集新闻列表数据。就需要在打开网页后不断向下滚动,加载新数据。  …

2023年9月5日 0条评论 62点热度 0人点赞 365crawadmin 阅读全文