软件的数据迁移是指软件升级到4.x版本后,当前软件设置及任务已采集到的数据将会丢失,所以我们需要对数据进行备份迁移。
本文主要为大家介绍使用后羿采集器的流程图模式,采集网站上多关键词的数据。 步骤一:新建采集任务 1、复制官网的网页地址(需要搜索结果页的网址,而不是首页的网址) 更多详情内容,请参考以下教程: 如何正确地输入网址。
后羿采集器支持图像识别功能,可以识别图像中的文字,但是并非所有图像都可以识别,大家可以先进行测试,如果测试不成功,说明你遇到的情况暂时无法支持。 我们以智能模式中采集后羿采集器官网教程页为例,流程图模式的设置方式与此相同。 如下图所示,我们可以看到标题字段中有很多乱码,这是因为我们在网页中使用了图片替代了文字,这些图片在网页中和其他文字看起来是一样的,但是采集下来时就会变成乱码。 此时我们可以右击字段,然后在识别格式中选择“内容乱码”。 之后在字段上会出现“识别”按钮。 点击“识别”按钮,软件会进行图像识别,识别结…
本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…
1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置
不同于智能模式可以直接设置采集范围,流程图模式采集范围的设置比较复杂一些。 1、只设置结束页面,不设置开始页面的采集范围设置 这种设置比较简单,不管是有分页按钮的网页、瀑布流加载的网页还是瀑布流+分页加载的网页,都只需要选中翻页循环设置,然后在翻页次数那里设置自定义次数,用户想要在哪个页数停止,就选择填相应的页数。 1)分页按钮 2)瀑布流分页 3)瀑布流+分页按钮 2、设置开始采集页面,不设置结束页面的采集范围设置 1)网址会随着页码的变动而变动的网站 用户可以直接复制新的开始采集的网址,在页面上修改网址。 2)…
在编辑任务界面,点击右下角“开始采集”按钮,跳转到任务启动界面,我们可以在任务启动界面对任务进行配置。 1、定时启动 定时启动功能包括循环采集和定时采集,其中循环采集是按照一个固定的时间间隔(从前一次任务停止到下一次任务启动),循环启动采集任务;定时采集是按照设置的时间周期,循环启动采集任务。 更多详情内容,请参考以下教程: 如何设置定时采集 2、智能策略 智能策略设置包含代理设置、智能切换设置、手动切换设置 3、自动导出 通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务…
1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 1)软件可以准确识别列表的情况 点击列表中的任一行,软件会自动识别出列表并给出提示,选择“提取列表中的数据”。 软件会自动识别当前页面的分页按钮,我们可以根据提示设置自动翻页操作。 更多详情内容,请参考以下教程: 如何设置分页
在设置采集任务的过程中,用户会遇到多种多样的网页,一般可以分为三种:一种是直接有分页按钮的网页,一种是瀑布流类型的网页,还有一种是分页+瀑布流类型的网页。 1. 页面中有可点击的分页按钮(例如“下一页”或“点击加载更多”) 这种网页是最常见的一种分页类型,在提取列表元素后,软件会提示是否需要自动翻页采集。如果用户只采集单页数据,则不需要设置分页循环。 在点击需要设置分页循环之后,软件会提示所识别到的分页是否正确,如果点击正确按钮,软件会配置好循环组件。 具体如下动图所示: 如果软件识别的分页按钮不够准确,用户可以点…
启动任务设置完毕之后,我们点击“启动”按钮。 然后会打开任务运行界面,在这个界面上我们可以查看网页、查看运行日志、查看采集结果、开启自动导出、开启加速、暂停任务或者停止任务。 1、查看网页 点击页面上的“查看网页”按钮,可以在新打开的窗口中查看当前正在采集的网页。 在这个界面中,我们点击右上角的保存按钮,可以把这个网页保存下来,一般用于需要保存当前网页来排查遇到的问题。 2、运行日志 点击“运行日志”可以查看当前任务的运行状态。 3、查看采集结果 点击“数据”可以预览当前任务的部分采集结果。 4、暂停 点击“暂停”…