翻译功能,一般是调用第三方API。大概流程是,在一些提供翻译服务的站点注册帐号,然后申请API权限,之后再调用其API接口或SDK,即可实现翻译功能。 一般情况下,这些翻译机构都提供一定的免费额度,超出部分会按字数收费。 本文以蜜蜂采集器为例,调用百度翻译接口,实现文本翻译功能。 插件介绍 蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、消息通知插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程语言。 其中,数据处理插件是在一条采集记录中的所…

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

网站一般由栏目页和内容页组成。首页、主题、搜索结果等也可视为栏目页。 采集网页数据,即从栏目页获得内容页地址列表,从内容页提取所需数据。 网页数据采集有着广泛的用途。例如,金融数据采集分析,门户新闻实时监控,监控电商的库存变化/价格变化,舆情分析,客户资料采集,短视频/文章同步发布到各平台。因此,掌握好这门技术,是非常有必要的。 现在,我们做一个热点新闻推送到手机的功能。我们以某门户站点的新闻热搜榜单为采集对象,采集结果将发布到企业微信。 页面分析 使用Chrome浏览器,按F12打开浏览器的开发者工具,再打开门户…

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

采集器除了采集之外,还可以做很多有趣的事情。本文以蜜蜂采集器为例,介绍如何使用采集器实现论坛自动签到的功能。 环境准备 为了方便测试,我们自建一个测试用的论坛站点。自建环境如下: Discuz论坛系统:这里以Discuz论坛系统为例,搭建一个简单的论坛。具体搭建过程,此处略过。 每日签到:这个是Discuz插件,注意区分名称,全称是“DSU每日签到”。如果某个论坛的签到页面,带有dsu_paulsign字样,那一般就是使用了这个签到插件。 编写任务规则 这里,因为我们要实现自动签到功能。首先…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

在采集数据时如果遇到没采集到全部数据就停止采集的情况,可以点击“查看网页”按钮,确认一下采集过程中页面打开是否异常。本文主要讲解如何将采集时的当前页保存成文件。 步骤一:点击“查看网页”按钮 启动任务之后软件会自动打开“任务运行界面”,在这个界面上我们点击“查看网页”按钮即可看到当前正在采集的页面。 可以通过查看网页界面确认任务当前页的打开情况,包括设置的预执行操作是否有正常运行,是否有正常翻页,是否有广告弹窗,是否遇到验证码等。 步骤二:点击下载当前网页 在打开的当前页右上角,有一个“保存当前网页到文件系统”按钮…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

本文主要为大家介绍使用后羿采集器的流程图模式,通过输入组合文本的形式采集数据。 【温馨提示】该功能的使用需要企业标准版套餐,套餐详情请参考官网价格页面的套餐介绍。 步骤一:新建采集任务 1、复制网页地址,本次以帮助中心的链接为例。 更多详情内容,请参考以下教程: 如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上新建采集任务,也可以直接导入已经创建好的任务。 更多详情内容,请参考以下教程: 如何导入和导出采集规则。 步骤二:配置采集任务 1、设置输入组合文本任务 在流程图模式输入网址新建任务之后,我们…

2023年9月5日 0条评论 72点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要采集详情页链接。本文通过三种方式来讲解如何利用我们后羿采集器的智能模式采集到详情页的链接,流程图模式同理。 方法一:通过自动识别获取 后羿采集器的智能模式会自动识别列表,一般网站在识别到列表的同时,就会将详情页的链接一并识别出来。 【温馨提示】如果自动识别不准确,也可以用手动点选的方式进行列表识别。 点此深入了解如何识别列表 方法二:通过深入采集获取 在软件的列表识别过程中,有时候会遇到无法识别到详情页链接的情况。这时候我们就能用深入采集功能进入详情页,采集详情页的链接。 1.在识别到列…

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

在采集任务的设置中,经常能遇到网页没有翻页按钮或者网站有严格的防采集限制,不能用点击下一页按钮的形式进行翻页的情况。这个时候我们就可以使用后羿采集器的流程图模式,利用批量输入页码的方式翻页。 步骤一:新建采集任务 1、复制目标网站的网址 【温馨提示】需要搜索结果页的网址,而不是首页的网址。 点此了解关于如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上直接新建采集任务。 点此了解如何导入和导出采集任务。 步骤二:配置采集任务 1、设置批量输入页码的循环组件 在流程图模式输入网址新建任务之后,我们点击页…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

后羿采集器目前已经支持“邮件提醒”功能,开启邮件提醒功能后,当用户的采集任务在运行过程中遇到需要“输入验证码”或“登录网站”情况时,后羿采集器会通过邮件提醒的方式通知用户。 注意:后羿采集器“邮件提醒”功能仅限企业标准版及以上套餐使用。 下面介绍下使用后羿采集器“邮件提醒”功能的具体操作步骤: 1.配置邮件推送服务 “邮件提醒”功能使用的前提是:配置好邮件推送服务参数。意思是,用户需要使用一个邮箱来作为推送提醒邮件的中转站,所有的提醒邮件都会通过这个邮箱来进行推送的,下面以163邮箱为例进行说明。 首先,在163邮…

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文
18910111246