【智能模式】【流程图模式】如何设置文件下载

2023年9月5日 24点热度 0人点赞 0条评论

一、文件下载功能简介

后羿采集器支持在采集的过程中下载文件,文件类型包括:图片、音频、视频、文档、其他文件,启用文件下载功能的位置如下图所示:

需要注意的是,此处的设置只是针对文件下载功能的开启,所有的文件下载都需要在采集字段中设置对应的下载链接或者下载按钮

在下载文件时,软件支持对文件下载路径进行修改,你可以按照下图进行设置:

在下载文件时,软件支持按照一定的规则创建独立的文件夹用来存放文件,规则包括按照文件类型、采集日期、任务名称或者按照字段值给文件夹命名,如下图所示:

在下载文件时,软件支持按照一定的规则重命名下载的文件,规则包括按照原文件名、文件md5值、任务名称_编号、采集日期_编号、编号、自定义和字段值给下载文件命名,如下图所示:

当选择自定义规则时,可以对不同的固定规则进行组合,从而创建出所需的命名规则,如下图所示:

当遇到同名文件时,用户可以按照以下三种方式进行选择:

二、如何设置文件下载

文件下载可以分为三种类型,第一种是直接点击下载链接下载文件,第二种是通过点击下载按钮下载文件,第三种是通过数据处理生成下载链接

第一种类型:点击下载链接下载文件

1、图片

支持图片的格式包括jpg、png、gif、jpeg、bmp、eps、psd等主流图片格式。当我们需要下载图片时,请勾选图片选项,如下图所示:

下载图片有以下三种情况:

(1)下载列表页的图片

(2)下载详情页的图片

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这三种情况。

(1)下载列表页的图片

第一步:点击添加字段,然后点击列表中的图片

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

具体如下动图所示:

如果下载列表页图片时出现图片显示不完整,或者下载后的图片非常小,或者图片无法打开,那是因为采集时图片未完全加载显示出来,此时可以选择设置一个更大的请求等待时间,或者在防屏蔽中勾选逐行滚动选项,如下图所示:

(2)下载详情页的图片

如果当前网页可以通过点击选中全部想要采集的内容,请按照以下步骤处理:

第一步:点击添加字段,然后点击页面内容,确保选中内容包含了所有的图片

第二步:右击字段,设置取值属性为“提取外部HTML”

如果当前网页无法通过点击选中全部想要采集的内容,请按照以下步骤处理:

第一步:选择图片最全的详情页作为深入采集的链接,然后点击添加多个字段,分别对应需要采集的图片

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中包含所有图片的内容

第二步:右击字段,设置取值属性为“提取外部HTML”

补充:在下载详情页图片时,如果图片需要滚动页面才能显示出来,此时需要在详情页加一个滚动操作。

在智能模式中,请在详情页点击右上角预执行脚本按钮,然后在预执行脚本窗口中进行如下设置:

在流程图模式中,请直接拖动一个滚动组件放到点击打开详情页的点击组件之后,具体设置如下所示:

2、音频

支持音频图片的格式包括mp3、amr、wav、m4a等主流音频格式。当我们需要下载音频时,请勾选音频选项,如下图所示。 

下载音频有以下两种情况:

(1)下载列表页的音频

(2)下载详情页的音频

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的音频

如果可以通过点击获取音频下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的音频下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中音频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的音频

第一步:点击添加字段,然后点击详情页中的音频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中音频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

3、视频

支持音频图片的格式包括mp4、avi、mov、3gp、flv等主流视频格式。当我们需要下载视频时,请勾选视频选项,如下图所示。

下载视频有以下两种情况:

(1)下载列表页的视频

(2)下载详情页的视频

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的视频

如果可以通过点击获取视频下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的视频下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中视频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的视频

第一步:点击添加字段,然后点击详情页中的视频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中视频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

4、文档

支持文档的格式包括doc(x)、ppt(x)、xls(x)、pdf、snb、txt等主流文档格式。当我们需要下载文档时,请勾选文档选项,如下图所示。

下载文档有以下两种情况:

(1)下载列表页的文档

(2)下载详情页的文档

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的文档

如果可以通过点击获取文档下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的文档下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文档下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的文档

第一步:点击添加字段,然后点击详情页中的文档下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文档下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

5、其他文件

支持其他文件的格式包括apk、exe、rar、zip、gzip、dmg、torrent、epub等主流文件格式。当我们需要下载这些文件时,请勾选其他文件选项,如下图所示。

下载其他文件有以下两种情况:

(1)下载列表页的文件

(2)下载详情页的文件

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的文件

如果可以通过点击获取文件下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的文件下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文件下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的文档

第一步:点击添加字段,然后点击详情页中的文件下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文件下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

第二种类型:点击下载按钮下载文件

针对第二种类型,所有的文件类型设置方式相同,具体步骤如下:

第一步:点击添加字段,然后点击下载按钮

第二步:右击字段,设置取值属性为“下载按钮”

在开启下载的设置部分,勾选对应的文件选项即可,具体方法请参考上文第一种类型的下载设置。

第三种类型:通过数据处理生成下载链接

针对第三种类型,在进行下载链接的数据处理之后,需要再添加一个数据处理步骤,如下图所示:

在开启下载的设置部分,勾选对应的文件选项即可,具体方法请参考上文第一种类型的下载设置。

365crawadmin

这个人很懒,什么都没留下

文章评论

您需要 登录 之后才可以评论