蜜蜂采集器的使用教程 - 采集一次再发布到多个站点的几种方法 在数据采集过程中,常常需要将采集的内容发布到多个不同的站点,但各个站点的CMS、插件等可能各有不同,从而导致发布的数据格式也有所差异。对此,我们一般可以采取以下几种方法。 主站采集、子站复制 从数据源采集数据并发布到主站后,再从主站采集并发布到其他子站。其优点是简单明了,方法统一。但缺点也很明显,采集会消耗更多的系统资源,同时维护繁琐。一旦主站更换主题或优化页面布局,可能会导致子站数据出错,维护工作量较大。 一次采集多站发布,站点发布模块中对标签数据二次…

2024年2月19日 0条评论 156点热度 0人点赞 365crawadmin 阅读全文

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。这里的知识一般指规则、概念、规律及模式等。 数据挖掘建模过程 定义挖掘目标 针对具体的数据挖掘应用需求,首先要非常清楚,本次挖掘的目标是什么?系统完成后能达到什么样的效果?因此…

2023年9月7日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的POST方法采集数据,POST采集时的请求参数处理。  

2023年9月5日 0条评论 72点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器的使用教程 - 2305版本的POST采集方法介绍 POST方法是一种HTTP请求方法,区别于GET方法。POST采集就是使用POST方法进行采集。 蜜蜂采集器自2305版本开始,支持POST参数分隔符方式的POST采集,同时废除了此前的2304版本中的域名指定POST采集的方法。 至此,软件支持网址翻页采集的POST方式采集和POST参数分隔符两种方式。其中,网址翻页采集的POST方式采集,可以查看软件帮助文档,功能仅限定在网址采集的翻页采集时。此处主要介绍POST参数分隔符方式的POST采集。 POS…

2023年9月5日 0条评论 85点热度 0人点赞 365crawadmin 阅读全文

蜜蜂采集器2305版本的POST采集方法介绍。蜜蜂采集器自2305版本开始,支持POST参数分隔符方式的POST采集。  

2023年9月5日 0条评论 74点热度 0人点赞 365crawadmin 阅读全文

很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。   一、什么是Ajax?   Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。   二、如何判断网页是否使用了Ajax技术?   Ajax网页有2个明显特征:…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

在正式开始数据采集之前,请根据自身系统,下载安装合适的八爪鱼客户端。 本文讲解Mac客户端安装方法与常见问题汇总。如安装过程遇到【无法打开】等情况,请参考文章下方的常见问题。  清除缓存 一、从未安装过八爪鱼Mac客户端,按以下流程操作安装即可:   1、系统要求   macOS 10.14 (Yosemite) 及更高版本(64位)。如您的系统低于10.14,请更新系统,或联系客服安装8.1.24版客户端。   特别说明: a. 如何查看自己电脑是什么系统?点击  ,选择【关于本机】,即可查看。

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

在正式开始数据采集之前,请根据自身系统,下载安装合适的八爪鱼客户端。 本文讲解Windows客户端安装方法与常见问题汇总。   一、下载安装八爪鱼Windows客户端(8版本)   1、系统要求   Win7/Win8/Win8.1/Win10(x64位) XP系统和32位系统,请下载安装7版本   特别说明: a. 如何查看自己电脑是什么系统?找到【此电脑】,右键,选择【属性】即可查看。

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

什么是防采集?   用大白话来说,就是我们想利用工具采集某个网站的数据(前提当然是公开合法数据),但网站不想给你采集而设置的技术阻挡措施。     网站常见的防采集套路有哪些?     防采套路1:输入验证码框验证   采集难度:★☆☆☆☆ 常见网站:搜狗微信   在采集某些网站过程中,爪子们是不是经常会遇到这样的情况,要求你输入验证码,否则就卡住进行不下去?   对的,这是网站最常用且最基础的防采措施之一,它要求你必须你手动输入验证码里的数字和字母,才能继续看到更多信息或者进行下一步,以此来判断你是机器人还是真人…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

一、定时本地采集是什么?   支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。   二、如何设置定时本地采集   1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。     2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的   按钮,选择【本地采集】-【设…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文