蜜蜂采集器的使用教程 - 采集一次再发布到多个站点的几种方法 在数据采集过程中,常常需要将采集的内容发布到多个不同的站点,但各个站点的CMS、插件等可能各有不同,从而导致发布的数据格式也有所差异。对此,我们一般可以采取以下几种方法。 主站采集、子站复制 从数据源采集数据并发布到主站后,再从主站采集并发布到其他子站。其优点是简单明了,方法统一。但缺点也很明显,采集会消耗更多的系统资源,同时维护繁琐。一旦主站更换主题或优化页面布局,可能会导致子站数据出错,维护工作量较大。 一次采集多站发布,站点发布模块中对标签数据二次…

2024年2月19日 0条评论 87点热度 0人点赞 365crawadmin 阅读全文

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。这里的知识一般指规则、概念、规律及模式等。 数据挖掘建模过程 定义挖掘目标 针对具体的数据挖掘应用需求,首先要非常清楚,本次挖掘的目标是什么?系统完成后能达到什么样的效果?因此…

2023年9月7日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的POST方法采集数据,POST采集时的请求参数处理。  

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的使用教程 - 2305版本的POST采集方法介绍 POST方法是一种HTTP请求方法,区别于GET方法。POST采集就是使用POST方法进行采集。 蜜蜂采集器自2305版本开始,支持POST参数分隔符方式的POST采集,同时废除了此前的2304版本中的域名指定POST采集的方法。 至此,软件支持网址翻页采集的POST方式采集和POST参数分隔符两种方式。其中,网址翻页采集的POST方式采集,可以查看软件帮助文档,功能仅限定在网址采集的翻页采集时。此处主要介绍POST参数分隔符方式的POST采集。 POS…

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器2305版本的POST采集方法介绍。蜜蜂采集器自2305版本开始,支持POST参数分隔符方式的POST采集。  

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

什么是防采集?   用大白话来说,就是我们想利用工具采集某个网站的数据(前提当然是公开合法数据),但网站不想给你采集而设置的技术阻挡措施。     网站常见的防采集套路有哪些?     防采套路1:输入验证码框验证   采集难度:★☆☆☆☆ 常见网站:搜狗微信   在采集某些网站过程中,爪子们是不是经常会遇到这样的情况,要求你输入验证码,否则就卡住进行不下去?   对的,这是网站最常用且最基础的防采措施之一,它要求你必须你手动输入验证码里的数字和字母,才能继续看到更多信息或者进行下一步,以此来判断你是机器人还是真人…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

一、定时本地采集是什么?   支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。   二、如何设置定时本地采集   1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。     2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的   按钮,选择【本地采集】-【设…

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,我们可能有这样的需求:第一次采集所有数据,后续再采集的时候只需要采集网页上新增的数据。 自动采集新增数据的需求,可以通过八爪鱼的定时云采集配合多种策略实现,以下将结合实例详细讲解。 注意:定时云采集是八爪鱼采集器团队版及以上版本才具有的功能(旧套餐旗舰版及以上版本),详情请看 版本介绍 。   实例网址:http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html 采集需求:定时采集广东省政府采购网列表中新增的公告标题、标题链接和发…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

一、如何解决网页空白   在编辑采集流程步骤中,我们可能会遇到浏览器窗口的网页变成空白的页面。例如从列表页面点击进入详情页,在详情页提取数据时,浏览器中的网页就变成空白页 about:blank。     (浏览器窗口空白01)   这是因为【点击元素】(或【点击列表链接】)的【高级设置】中勾选了【在新标签中打开】,而导致的。   (浏览器窗口空白02)   有些网页的点击并不是开标签的,而ajax加载的(什么是ajax,请参考:Ajax网页设置方法)。   所以对这类网页空白的情况,我们可以通过不勾选【在新标签中…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

如果用八爪鱼配置规则,采集数据出现异常,我们如何快速找出并解决问题?如何更好与客服沟通? 本教程将讲解规则排错的基本思路与方法。   一、手动执行规则   做好采集规则以后,我们最好手动执行一下规则,检查规则是否满足采集需求。 手动执行规则是什么意思?打开流程图界面,按照从上至下,由内而外的逻辑(点击查看 流程执行逻辑教程),将每个步骤都点击一遍,并观察点击步骤后的页面情况。如果符合预期,没问题。如果不符合预期,则需要修改。   1、手动执行规则,符合预期   特别说明: a. 在点击【循环列表】时,最好选择除第1…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文