问题: 任务停止后,下次采集时可以从停止的地方继续采集吗? 回答: 目前不可以,任务停止后,下次采集会从头开始采集。 如果想实现断点续采请参考续采的教程: 如何实现断点续采

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

采集任务是后羿采集器记录采集任务的具体设置信息,并且能进行导入导出操作的一个程序脚本。 导入已有的任务后既可以进行修改,也可以不做修改直接按照所配置的任务自动地进行数据采集,导出的任务可以发送给其他用户进行使用。 导入的任务可以直接右击任务,点击开始运行或者点击编辑任务对任务进行修改。 下面介绍一下如何导入和导出采集任务。 1、导入采集任务 点击左上角图标导入本地任务。 2、导出采集任务 右击任务,选择导出任务到本地。

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的定时采集功能是一个高级功能,用户通过使用该功能,可以给采集任务设置一个固定的启动和停止时间点,并且周期性地按照这个时间点进行数据采集。 点击右下角“开始采集”图标,可以进行定时采集功能的设置。 1、循环采集 循环采集适用于不间断采集任务的场景,是指任务采集结束之后按照设置的时间间隔开始下一次的任务采集,循环往复。用户可以设置任务间隔时间,甚至可以设置任务整体采集时长,软件配置了多种格式供用户选择,用户可以按照自己需求进行设置。 1)间隔时间 是指两次任务运行的间隔时间,用户可以选择软件设置好的间隔时间,…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

在采集数据的过程中,我们经常会遇到需要输入验证码的情况,后羿采集器支持手动输入功能。 需要输入验证码的情况一般可以分为以下两种: 第一种,验证码出现在固定网页,例如注册/登录页面的验证码 第二种,验证码出现在不固定的网页,例如在采集过程中会跳出需要输入验证码的页面 这两种场景中,验证码的设置略有区别。 针对第一种场景,我们可以在一开始编辑采集规则时就进行设置; 针对第二种场景,我们需要先将采集规则运行起来,一直到网站弹出验证码提示了,此时我们停止采集,然后重新打开规则编辑界面进行验证码识别的设置。 本文主要介绍第一…

2023年9月5日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

在新建智能模式任务之后,软件会打开任务编辑界面,本教程为大家介绍如何在智能模式的任务编辑页面进行任务设置。 1、刷新网页 如果遇到网页加载不出来的情况,可以点击刷新按钮刷新网页,软件会刷新当前网页并重新进行智能识别。 2、修改任务网址 这里可以对网址进行编辑,超过200个请直接修改本地文件。 注意:如果是从本地文件中导入的网址,这里的修改不会影响本地文件。 更多详情内容,请参考以下教程: 如何修改网址 3、预登录功能 遇到需要登录的网页,可以点击此位置使用预登录功能 更多详情内容,请参考以下教程: 如何采集需要登录…

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

在采集任务的设置中,经常能遇到网页没有翻页按钮或者网站有严格的防采集限制,不能用点击下一页按钮的形式进行翻页的情况。这个时候我们就可以使用后羿采集器的流程图模式,利用批量输入页码的方式翻页。 步骤一:新建采集任务 1、复制目标网站的网址 【温馨提示】需要搜索结果页的网址,而不是首页的网址。 点此了解关于如何正确地输入网址。 2、新建流程图模式采集任务 您可以在软件上直接新建采集任务。 点此了解如何导入和导出采集任务。 步骤二:配置采集任务 1、设置批量输入页码的循环组件 在流程图模式输入网址新建任务之后,我们点击页…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

一、功能简介 在采集数据时,可能存在网页没有正常打开(所需数据未能加载出来,多刷新下能正常加载),页面出现验证码、登录等等防采集的情况。 以上情况,大多可通过「重试」解决。   二、「重试」设置说明 在八爪鱼采集流程中,【打开网页】、【点击元素】和【点击翻页】步骤后均会打开新页面。在流程图下方,会出现[基础设置]、[高级设置]、[重试],将鼠标移到【重试】上,点开「重试」,即可进行相应设置。     1、重试条件 如果网页没有正常打开,例如显示服务器错误(500),访问频率太快等,或者跳转到其他不应该出现的页面。可…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

功能简介 任务正在运行云采集的时候,可以查看当前运行详情;任务运行了多次云采集的时候,可以查看历史运行记录。   使用版本限制 云采集(团队版及以上版本)可使用此功能,旧套餐旗舰版及以上版本可使用。     一、查看云采集详情 在任务列表,点击任务云采集的【详情】,进入该任务当前的(任务正在运行)或者最近一次的(任务运行完成)云采集详情页面,查看任务概览、子任务、运行任务日志和运行子任务。     1、任务概览 任务云采集情况总括:任务状态(运行中、已停止、已完成)、采集进度(进度条)、开始时间、结束时间、耗时、采…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

1、添加特殊字段 在提取数据时,我们可以添加一些特殊字段: 【添加当前时间】:采集数据的时间,以电脑显示时间为准。 【添加当前网页信息】:页面网址、页面标题、页面描述、页面关键词、页面源码。 【添加固定字段】:某个固定字段,添加后默认出现在每一行数据前。例如:添加固定值【豆瓣】,表示数据源为豆瓣网。   如何添加? 点击页面右下方【数据预览】的【+】号按钮,按需添加字段。       2、字段上移下移 字段配置完成后,可以调整每个字段的顺序。 将鼠标移动到页面右下方【数据预览】的字段名上,选中  并按住拖动,即可调…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

采集场景 打开雪球网 https://xueqiu.com/,页面显示雪球热帖列表,点击每一个帖子的标题可进入详情页,查看并采集详情页里面的数据内容。   采集字段 帖子作者、标题、文章内容、发布时间、评论数、评论者、评论内容、评论时间等。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/10  八爪鱼版本:V8.5.2 如果因网页改版造成网址或步骤无效,无法收集到目标数据…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文
1181920212254