问题: 遇到页面中需要点击的才能查看的数据怎么办? 回答: 可以在软件的右上角,绿色按钮预执行操作界面通过添加点击组件进行查看。 具体请参考教程: 预登录和预执行操作

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

以下是在使用后羿采集器过程中涉及到的一些名词。 采集规则: 这是后羿采集器记录采集任务的具体设置信息,并且能进行导入导出操作的一个程序脚本。导入已有的规则后既可以进行修改,也可以不做修改直接按照所配置的规则自动地进行数据采集,导出的规则可以发送给其他用户进行使用。   XPath: 这是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据在网页中的位置。 以下简介来自百度百科,请点此查看更详细内容: XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

在智能模式下,后羿采集器会按照列表类型对网址进行识别并采集列表元素中的字段,如果软件自动识别的字段不符合您的需求,或者您需要修改字段的相关信息,那么您可以右击字段,然后在弹出的菜单栏中进行设置,如下图所示: 具体设置的详细介绍如下: 1、修改字段名称 2、合并字段 合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔符部分直接设置为空白就好。 另外一种方法是按c…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的加速引擎功能可以对采集任务进行加速,加速效果和网页加载速度以及采集任务的设置有关,通常可以达到3~10倍的加速效果。 加速引擎的加速选项包括:智能请求、智能跳过详情页、多线程采集、禁用多媒体和HTTP引擎。 大家可以在启动任务时进行设置,软件会根据您的设置启动对应的加速功能。 如果您在开启任务时没有使用加速引擎,在任务运行界面中也可以通过点击加速按钮来开启加速功能。 关于加速引擎有以下几点需要注意: 1、加速引擎功能开启后无法取消 2、使用多线程采集功能后,采集结果和输入网址的顺序以及单个网页的内容显示…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

在编辑任务的过程中,大家有时候会遇到各种情况导致页面内容无法显示,或者会遇到验证码提示,本教程主要为大家介绍如何处理这些情况并进行采集。 1、网页中提示验证码操作 (1)手动输入验证码 输入网址之后直接弹出的验证码,此时软件会提示验证码需要输入,如下图所示: 大家可以按照软件提示进行手动输入验证码操作。 如果软件未给出提示,我们可以直接点击手动输入验证码按钮,如下图所示: 然后在弹出的窗口中进行输入验证码操作,完成后点击右下角完成按钮。   (2)重启猫,注意不是路由器 重启猫可以切换您的IP,请注意不是…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

软件的数据迁移是指软件升级到4.x版本后,当前软件设置及任务已采集到的数据将会丢失,所以我们需要对数据进行备份迁移。    

2023年9月5日 0条评论 35点热度 0人点赞 365crawadmin 阅读全文

有很多网站,我们需要采集需要鼠标移动上去才会出现数据。   例如:在阿里巴巴列表页,移动到非广告商品图片,会出现同款数量、同款链接等字段,我们需要采集这些数据。     在八爪鱼中该如何操作呢?来看一下具体的操作步骤。   步骤一、打开网页   在首页【输入框】中输入目标网址https://s.1688.com/selloffer/offer_search.htm?keywords=%C5%AE%D7%B0&n=y&netType=1%2C11%2C16,点击【开始采集】,八爪鱼自动打开网页。   …

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

本教程将介绍企业版套餐,并讲解如何查看/管理账号下的云采集节点,优化分配策略,提高采集效率。 一、企业版基本介绍 企业版是八爪鱼SaaS版本中的最高版本。企业版处于特定集群,拥有固定的云节点数,通常为30个或100个,专为具有企业级数据采集需求的客户而设计。 而团队版(旧套餐旗舰\旗舰+版本),则处于公共集群,其节点数是浮动变化的,所有团队版(就套餐旗舰/旗舰+)用户一起争夺节点的使用权。   二、企业版可手动调整每个任务的云节点数 企业版账号下的每个任务,云采集的最大可用节点数,默认为2(即每个任务最多有2个云节…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

我们在提取一批相似网址时,页面中的字段一般是在同一位置,通过同一条定位XPath可以将其全部匹配到。 但是存在这样一种情况,同一字段在不同页面的位置略有不同。此时,我们可以尝试通过备用位置解决。例如,一个字段,在A页面和B页面的位置不同,那么可以用A页面字段的位置做规则提取字段,然后将B页面字段的位置设为备用位置。这样,AB两个页面的字段就都能被提取到。   示例网站: https://www.alibaba.com/product-detail/Clothes-Clothes-Dresses-Women-Fall…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集某城市的百姓网日租短租房屋信息(示例网址(百姓网东营日租房): https://dongying.baixing.com/duanzu/m5828/)    采集字段 出租人名称、标题、价格、发布时间、详情介绍、房屋地址、页面网址等字段   点击图片可查看高清大图,下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       教程说明 本篇制作时间:2021/1/19    八爪鱼版本:V8.2.6 如果因网页改版造成网址或步骤无…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文
1353637383954