一、功能简介 在采集数据时,可能存在网页没有正常打开(所需数据未能加载出来,多刷新下能正常加载),页面出现验证码、登录等等防采集的情况。 以上情况,大多可通过「重试」解决。   二、「重试」设置说明 在八爪鱼采集流程中,【打开网页】、【点击元素】和【点击翻页】步骤后均会打开新页面。在流程图下方,会出现[基础设置]、[高级设置]、[重试],将鼠标移到【重试】上,点开「重试」,即可进行相应设置。     1、重试条件 如果网页没有正常打开,例如显示服务器错误(500),访问频率太快等,或者跳转到其他不应该出现的页面。可…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

功能简介 任务正在运行云采集的时候,可以查看当前运行详情;任务运行了多次云采集的时候,可以查看历史运行记录。   使用版本限制 云采集(团队版及以上版本)可使用此功能,旧套餐旗舰版及以上版本可使用。     一、查看云采集详情 在任务列表,点击任务云采集的【详情】,进入该任务当前的(任务正在运行)或者最近一次的(任务运行完成)云采集详情页面,查看任务概览、子任务、运行任务日志和运行子任务。     1、任务概览 任务云采集情况总括:任务状态(运行中、已停止、已完成)、采集进度(进度条)、开始时间、结束时间、耗时、采…

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

1、添加特殊字段 在提取数据时,我们可以添加一些特殊字段: 【添加当前时间】:采集数据的时间,以电脑显示时间为准。 【添加当前网页信息】:页面网址、页面标题、页面描述、页面关键词、页面源码。 【添加固定字段】:某个固定字段,添加后默认出现在每一行数据前。例如:添加固定值【豆瓣】,表示数据源为豆瓣网。   如何添加? 点击页面右下方【数据预览】的【+】号按钮,按需添加字段。       2、字段上移下移 字段配置完成后,可以调整每个字段的顺序。 将鼠标移动到页面右下方【数据预览】的字段名上,选中  并按住拖动,即可调…

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

采集场景 打开雪球网 https://xueqiu.com/,页面显示雪球热帖列表,点击每一个帖子的标题可进入详情页,查看并采集详情页里面的数据内容。   采集字段 帖子作者、标题、文章内容、发布时间、评论数、评论者、评论内容、评论时间等。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/10  八爪鱼版本:V8.5.2 如果因网页改版造成网址或步骤无效,无法收集到目标数据…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。   一、什么是Ajax?   Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。   二、如何判断网页是否使用了Ajax技术?   Ajax网页有2个明显特征:…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

采集场景 今日头条上有很多头条号,实例网址:https://www.toutiao.com/c/user/52255723016/#mid=52255723016,是头条号【北青网】的主页。主页上展示其发布的文章列表。点击文章标题链接,可进入文章详情页,查看文章正文(文字+图片)。   采集字段 文章标题、文章链接、发布时间、阅读数、评论数等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格…

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集某个微博博主主页的博文数据,实例地址https://weibo.com/u/3261134763 https://weibo.com/2656274875?refer_flag=1001030103_         采集字段 粉丝数、关注数、全部微博数、发布时间、博文内容、分享数、评论数、点赞数   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。   教程说明 本篇更新时间:2023/03/28 八爪鱼版本:V8.6 如因网页改版导致网址或步骤无效,无法收集到目标数据,请…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

采集场景 京东商品详情页中的评价,有多个分类:【全部评价】、【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】。其中【全部评价】默认展现,其他需点击后展现。本文以按【差评】筛选采集为例讲解。实例网址:https://item.jd.com/100005185609.html;https://item.jd.com/100006607505.html;https://item.jd.com/100004770263.html。   采集字段 用户名、评价正文、颜色、内存、评论时间、店铺名称、星级。    …

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

一、功能简介 八爪鱼新上线触发器功能,通过对「提取数据」步骤中的字段,设置【某字段 → 满足/不满足某条件 → 就执行某操作】,以限制采集范围,提高采集效率。   二、适用版本 V8.4.0以上版本   三、功能具体说明   每一个「提取数据」步骤,都可设置触发器。 点击【提取数据】步骤,在下方设置页面,点击[高级设置]点击「新增触发器」,可进入到触发器编辑界面,设置触发器名称和条件。     1、设置触发器名称     2、设置触发器条件 1)字段 如图位置,将展示本「提取数据」步骤中的所有字段,可选择要设置条件…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

通过八爪鱼云采集,可以实现多个任务并发采集,极大提高采集效率。 云采集原理是什么?什么样的规则可实现云加速?本文将详细讲解。   一、云采集原理 云采集是指,使用由八爪鱼提供的云服务集群进行数据采集。八爪鱼拥有5000+云服务器,7*24小时不间断运行(一台云服务器可看做一个云节点)。   八爪鱼的采集任务运行在云节点上时: a. 在满足可拆分的情况下,1个任务最多拆成100个子任务。(3类任务可拆分,下文将详细讲解) b. 1个任务/子任务需占用一个云节点进行采集。也就是说,1个云节点同时只能运行一个任务/子任务…

2023年9月5日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文
1234513