如果您已经看完了后羿采集器流程图模式的第一个采集案例,想必您对其已经有了初步的了解,这里我们再来详细介绍一下流程图模式的基本操作流程。
1、输入正确的网址
流程图模式对输入网址的要求没有智能模式那么严格,但是您仍然需要按照软件的要求输入正确的网址格式。
后羿采集器支持单网址和多网址采集,支持手动输入网址、从本地文件导入网址及批量生成网址。
更多详情内容,请参考以下教程:
2、预登录
在数据采集过程中,我们有时候会遇到需要登录才能查看内容的网页,这时我们需要用到预登录功能,登录成功之后就能进行正常的数据采集。
更多详情内容,请参考以下教程:
3、输入验证码
在编辑任务过程中,如果遇到验证码,可以点击右上角的输入验证码功能,手动输入验证码操作。
更多详情内容,请参考以下教程:
4、网络安全设置
在编辑任务过程中,如果遇到网页异常的时候可以试着使用此功能,但是要注意打开此选项可能导致页面上的某些内容无法采集(如iframe中的内容)。
5、切换浏览器模式
在编辑任务过程中,可以使用不同的浏览器模式来优化采集效果,具体使用场景需要根据实际情况来判断。
更多详情内容,请参考以下教程:
6、网页点选搭建采集规则
流程图模式支持可视化网页点选操作,我们可以像浏览网页一样点击相关元素,然后根据按照软件提示进行操作,即可生成规则。
更多详情内容,请参考以下教程:
操作流程如下图所示:
7、设置提取字段
在流程图模式中,我们通过使用“提取数据”组件来设置提取字段。我们可以通过提示点击自动生成该组件或者从组件窗口中直接拖拽该组件。
更多详情内容,请参考以下教程:
8、深入采集
如果需要采集详情页的信息,可以点击页面元素,根据软件提示进行深入采集。
更多详情内容,请参考以下教程:
9、采集任务的设置
在启动采集任务之前,我们需要对采集任务进行配置,包括定时启动、智能策略、自动导出、文件下载、加速引擎、数据去重及开发者设置。
更多详情内容,请参考以下教程:
10、运行数据界面
启动任务之后会跳转到运行界面,在这个界面上我们可以看到当前任务的运行情况。
更多详情内容,请参考以下教程:
11、查看采集结果及导出数据
在采集任务结束之后,我们可以查看采集结果并导出数据。
更多详情内容,请参考以下教程:
文章评论