如果您已经看完了后羿采集器流程图模式的第一个采集案例,想必您对其已经有了初步的了解,这里我们再来详细介绍一下流程图模式的基本操作流程。 1、输入正确的网址 流程图模式对输入网址的要求没有智能模式那么严格,但是您仍然需要按照软件的要求输入正确的网址格式。 后羿采集器支持单网址和多网址采集,支持手动输入网址、从本地文件导入网址及批量生成网址。 更多详情内容,请参考以下教程: 如何创建流程图模式任务 2、预登录 在数据采集过程中,我们有时候会遇到需要登录才能查看内容的网页,这时我们需要用到预登录功能,登录成功之后就能进行…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

在流程图模式下,提取数据组件会将用户需要的数据提取出来,用户可以在这个组件内对采集字段进行设置。提取数据用于提取采集网页中的数据,该组件既可以单独使用也可以和循环组件或者判断组件搭配使用。单独使用时适合提取单页上的数据,搭配使用时,适合提取所有页面上的数据。 具体设置介绍如下: 1、修改字段名称 2、合并字段 合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔…

2023年9月5日 0条评论 28点热度 0人点赞 365crawadmin 阅读全文

流程图任务是由各种组件构成的,每种组件对应不同的操作,下面我们针对每个组件及其对应的设置参数进行详细的介绍。 1、打开网页 打开网页组件的作用是打开网页,流程图任务创建时会自动生成一个打开网页组件,该组件作为任务的第一个组件,不能被拖动或者删除。 在右侧的组件设置窗口中,点击右侧任务网址可以进行编辑,此处的编辑和编辑流程图任务网址是相同的操作。 当打开网页组件不处于任务起始位置时,设置如下图所示,选择自定义选项可以输入自定义的网址。 2、点击 点击组件的作用是点击页面中的元素,它的设置如下图所示: 通常该组件会在点…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

一、文件下载功能简介 后羿采集器支持在采集的过程中下载文件,文件类型包括:图片、音频、视频、文档、其他文件,启用文件下载功能的位置如下图所示: 需要注意的是,此处的设置只是针对文件下载功能的开启,所有的文件下载都需要在采集字段中设置对应的下载链接或者下载按钮。 在下载文件时,软件支持对文件下载路径进行修改,你可以按照下图进行设置: 在下载文件时,软件支持按照一定的规则创建独立的文件夹用来存放文件,规则包括按照文件类型、采集日期、任务名称或者按照字段值给文件夹命名,如下图所示: 在下载文件时,软件支持按照一定的规则重…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

如果您已经看完了后羿采集器智能模式的第一个采集案例,想必您对其已经有了初步的了解,这里我们再来详细介绍一下智能模式的基本操作流程。 1、输入正确的网址 输入了正确的网址,这个采集任务就成功了一半。 后羿采集器支持单网址和多网址采集,支持从本地TXT文件中导入网址,也支持参数网址批量生成。 更多详情内容,请参考以下教程: ※如何创建智能模式任务 2、选择页面类型及设置分页 在智能模式下,后羿采集器会自动识别网页,如果出现识别不准确的情况,此时您可以先手动自动识别一下,如果手动自动识别还不起效果,您可以手动点选列表,从…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持自动导出功能,通过使用该功能,可以实现在采集数据的过程中自动导出采集结果到本地文件和数据库,不需要等到任务运行结束后手动导出数据。 开启自动导出有两种方式: 第一种是直接在启动任务时进行设置,这种设置方式可以对同一个采集任务添加多个自动导出。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“自动导出”选项可以切换到自动导出设置界面。 勾选“自动导出”功能,点击“新建自动导出”按钮,新建自动导出的设置。 点击这个按钮后,软件会打开导出设置界面,在该界面中我们可以选择具体的导出方式。后…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的定时采集功能是一个高级功能,用户通过使用该功能,可以给采集任务设置一个固定的启动和停止时间点,并且周期性地按照这个时间点进行数据采集。 点击右下角“开始采集”图标,可以进行定时采集功能的设置。 1、循环采集 循环采集适用于不间断采集任务的场景,是指任务采集结束之后按照设置的时间间隔开始下一次的任务采集,循环往复。用户可以设置任务间隔时间,甚至可以设置任务整体采集时长,软件配置了多种格式供用户选择,用户可以按照自己需求进行设置。 1)间隔时间 是指两次任务运行的间隔时间,用户可以选择软件设置好的间隔时间,…

2023年9月5日 0条评论 28点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,我们通过以下几种方式来导出采集结果。 1、导出前台运行任务的采集结果 如果采集任务在前台运行,在任务结束后软件会弹出数据采集停止的提示框,此时我们点击“导出数据”按钮,即可导出采集数据结果。 2、导出后台运行任务的采集结果 如果采集任务在后台运行,在任务结束后,桌面右下角会弹出导出提示框,我们根据右下角任务完成的弹框提示打开查看数据界面,或者导出数据。 3、导出已经保存过的采集任务的采集结果 如果不是实时运行的采集任务,而是之前运行过的采集任务,例如我们关闭软件之后又重新打开软件,然导出一…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

在智能模式下,后羿采集器会按照列表类型对网址进行识别并采集列表元素中的字段,如果软件自动识别的字段不符合您的需求,或者您需要修改字段的相关信息,那么您可以右击字段,然后在弹出的菜单栏中进行设置,如下图所示: 具体设置的详细介绍如下: 1、修改字段名称 2、合并字段 合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔符部分直接设置为空白就好。 另外一种方法是按c…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的智能模式的强大之处在于它不仅可以采集单页类型和列表类型的网页,还能够支持采集列表页+详情页的网页类型。 下面我们来详细介绍一下如何采集采集列表页+详情页内容。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步中,软件会识别出列表内容中的链接,用户也可以通过手动设置提取到链接,在此基础上,我们如果需要采集到链接对应的详情页的内容,需要用到深入采集功能。 更多详情内容,请参考以下教程: 如何设置深入采集 第三步:设置详情页数据 详情页的采集和单页类型…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文
1464748495079