蜜蜂采集器的使用教程 - 对HTTP/2和HTTP/3的功能支持 HTTP的发展历史 HTTP(超文本传输协议)是万维网(World Wide Web)的基础协议。自 Tim Berners-Lee 博士和他的团队在 1989-1991 年间创造出它以来,HTTP 已经发生了太多的变化,在保持协议简单性的同时,不断扩展其灵活性。如今,HTTP 已经从一个只在实验室之间交换文件的早期协议进化到了可以传输图片,高分辨率视频和 3D 效果的现代复杂互联网协议。 最早版本是1991年发布的0.9版。最初版本的 HTTP 协…

2023年9月5日 0条评论 77点热度 0人点赞 365crawadmin 阅读全文

一、功能简介 八爪鱼新上线触发器功能,通过对「提取数据」步骤中的字段,设置【某字段 → 满足/不满足某条件 → 就执行某操作】,以限制采集范围,提高采集效率。   二、适用版本 V8.4.0以上版本   三、功能具体说明   每一个「提取数据」步骤,都可设置触发器。 点击【提取数据】步骤,在下方设置页面,点击[高级设置]点击「新增触发器」,可进入到触发器编辑界面,设置触发器名称和条件。     1、设置触发器名称     2、设置触发器条件 1)字段 如图位置,将展示本「提取数据」步骤中的所有字段,可选择要设置条件…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

在采集数据过程中,我们可能有这样的:第一次采集所有数据,需要再采集的时候只需要采集网络就添加的数据,这时候就可以使用八爪鱼的【增量采集】功能。   【增量采集】通过对比URL来实现增量数据的采集: 将当前URL与历史URL对比,如果相同URL与历史URL相同,则跳过不采集。反之则采集。   一、功能说明 在任务配置页面,点击【采集配置】按钮,进入配置页面:   进入设置页面后,可以看到: 【启用增量采集】的选项。同时提供两种网址对比方式: 【对比整个URL,包含所有参数】:当前整条网址与之前采集过的网址做对比,如果…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持Webhook功能,通过使用该功能,后羿采集器可以将采集到的数据实时发布到用户的HTTP地址,用户需要自行开发Webhook接收端代码。 Webhook的设置在启动任务的设置中,具体如下图所示: 开启Webhook功能之后,采集到的数据将以JSON格式进行发送。在任务采集结束时会发送一个采集结束的事件通知。 Webhook以HTTP POST的方式发送数据到用户的HTTP地址。 HTTP Header为"Content-Type: application/json; charset=utf-8"。 用…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持图像识别功能,可以识别图像中的文字,但是并非所有图像都可以识别,大家可以先进行测试,如果测试不成功,说明你遇到的情况暂时无法支持。 我们以智能模式中采集后羿采集器官网教程页为例,流程图模式的设置方式与此相同。 如下图所示,我们可以看到标题字段中有很多乱码,这是因为我们在网页中使用了图片替代了文字,这些图片在网页中和其他文字看起来是一样的,但是采集下来时就会变成乱码。 此时我们可以右击字段,然后在识别格式中选择“内容乱码”。 之后在字段上会出现“识别”按钮。 点击“识别”按钮,软件会进行图像识别,识别结…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

 自动分析表格中列名以及循环采集列中数值,下面以:http://www.bjtzh.gov.cn/bjtz/home/jrcj/index.shtml,网站为例演示使用方法: 1.首先在请求源码中找到表格的前后字符,注意这里的字符要包含整个表格,包括列名列值,不要缺少内容 2.在火车采集器其他设置中设置范围,并点击测试自动生成标签。然后就会分析代码生成对应标签,任务保存即可。

2023年9月4日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

1.服务器信息 七牛AccessKey以及七牛SecretKey在七牛云的个人中心的秘钥管理可以查看,复制粘贴进入火车采集器对应选项中即可 文件存放区域:根据空间的存储区域选择 七牛空间名称:存储空间的名称 2.上传目录 七牛云的上传目录为  文件下载中的[文件保存目录],仅根据这个目录地址进行传输,其他关于路径的配置不起效。 注意:上传配置中的  文件上传根目录对于七牛云上传路径不起作用,不用填写。

2023年9月4日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

  此功能是针对用户需求为:采集内容包含某个字符即将该字段的所有内容都替换为某个固定的内容。   使用场景例如:我们从对方网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。  下面以百度为例介绍下用法: 如上图,我们想要将包含百度的标题 内容更替换为 常用搜索网站,则写成如下格式: 运行结果为: 如上就是自动分类的使用方法。 其中需要注意的是:1.一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,按…

2023年9月4日 0条评论 77点热度 1人点赞 365crawadmin 阅读全文

1.功能 采集的内容,依据选择条件,进行日期大小的比较,若是不符合设置的条件,则过滤本条采集内容 此功能使用需注意: 1.采集的内容日期格式需符合  日期的格式,任意写格式或者日期是英文状态都无法有效进行判断,并且不能有其他的干扰字符,不然无法进行判断过滤 2.条件可以写固定的日期,也可以使用系统时间 3.也可以依据系统时间来进行时间的加减,来实现固定几天内的时间进行保存 下面举几个常用的使用场景作为示例 ①只保留三天内发布的数据  :首先此标签要采集发布的日期,然后内容过滤如下设置,0|0|-…

2023年9月4日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

最新版的采集器中新增加了对于http二级代理的API请求功能,下面介绍一下这个功能如何添加。 首先您需要找到一家代理IP,该代理需提供通过API获取IP的功能,下面来设置http功能 1.打开http二级代理服务器,点击批量导入。 2.点击添加按钮。直接将生成的API地址放入火车采集器地址栏处(图中画圆圈处)注意,生成的API必须是json格式,若是提供的默认正则格式不能正确获取到代理,那么需要您根据获取的Ip格式重新编写匹配正则表达式 3.勾选开启定时刷新,设置好时间后采集器会定时请求API来获取最新的IP地址。…

2023年9月4日 0条评论 95点热度 0人点赞 365crawadmin 阅读全文