在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,本文将为大家介绍如何采集这一类的数据。 第一步:采集列表页数据 输入网址后,软件会自动识别列表上的数据,用户可以在这个基础上对字段进行设置。 点此了解更多如何采集列表页数据 第二步:使用深入采集进入详情页 采集完列表页上的数据后,我们需要采集详情页上的数据,可以选中链接使用深入采集,也可以点击链接直接进入详情页。 点此了解如何使用深入采集功能。 第三步:点击页面上按钮获得采集字段 当遇到详情页信息需要点击才会显示的情况,我们可以…

2023年9月5日 0条评论 87点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,如果遇到需要登录才能查看内容的网页,我们可以按照如下图所示的步骤进行预登陆,然后顺利完成数据采集。 具体步骤如下: 第一步:创建智能模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成” 如下图所示:   温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。

2023年9月5日 0条评论 76点热度 0人点赞 365crawadmin 阅读全文

流程图模式是后羿采集器团队为了满足用户丰富的个性化数据采集需求而研发的操作模式。 该模式不仅支持可视化的网页点选操作,完全符合人工浏览网页的思维方式,用户只需要打开被采集的网站,用鼠标点击几下就能自动生成复杂的数据采集规则; 同时支持积木式采集组件拼接操作,通过将复杂的采集编码流程进行可视化封装,让开发采集规则就像搭积木一样简单,零基础也能很快上手。 下面给大家演示一下流程图模式的基本操作流程。

2023年9月5日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

终端标识可以理解为您当前电脑中所安装的后羿采集器软件的身份证号码,默认生成的终端标识由您的“电脑名称+随机数”构成,您也可以在设置中心进行修改。 终端标识主要用于同一个账号在多台电脑上登录的场景,当您的账号在多台电脑上登录时,如果您同时登录的电脑数量超过了套餐限制(后羿采集器的账号可以在任意一台电脑上登录,但是同时登录的电脑数量存在限制,具体可以参考官网价格页面的介绍),软件会显示出所有正在登录中的终端标识,并提示您需要断开其中一个正在登录中的终端,然后才能进行登录操作。 终端标识和账号存在关联,因此同一个账号在不…

2023年9月5日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持图像识别功能,可以识别图像中的文字,但是并非所有图像都可以识别,大家可以先进行测试,如果测试不成功,说明你遇到的情况暂时无法支持。 我们以智能模式中采集后羿采集器官网教程页为例,流程图模式的设置方式与此相同。 如下图所示,我们可以看到标题字段中有很多乱码,这是因为我们在网页中使用了图片替代了文字,这些图片在网页中和其他文字看起来是一样的,但是采集下来时就会变成乱码。 此时我们可以右击字段,然后在识别格式中选择“内容乱码”。 之后在字段上会出现“识别”按钮。 点击“识别”按钮,软件会进行图像识别,识别结…

2023年9月5日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 具体步骤如下: 第一步:修改页面类型为“单页类型”(请参考此教程 →_→ 如何设置页面类型) 第二步:设置分页(请参考此教程 →_→如何设置分页) 第三步:添加字段 关于采集字段的更多设置请参考这篇教程:如何对采集字段进行配置

2023年9月5日 0条评论 74点热度 0人点赞 365crawadmin 阅读全文

智能模式会自动识别网页中的列表数据,如果我们想要采集列表页对应的详情页中的数据,可以使用深入采集功能。所谓深入采集就是通过当前页面的链接进入对应详情页进行采集。 1、点击“深入采集”按钮 当列表页上只有一个链接字段时,点击任务操作栏上的“深入采集”按钮会打开链接字段中的第一个链接对应的详情页。我们可以在此页面上进行采集规则的设置,其他详情页会自动根据该页面的设置规则进行采集。 如果存在多个链接字段,点击“深入采集”按钮时会弹出提示框,我们需要选择一个链接字段进行深入采集。 此外,如果我们已经选中了某一个链接字段(点…

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

在如何设置数据筛选和如何设置采集范围两篇教程中,我们分别介绍了数据筛选条件和采集停止条件的设置步骤,可以看出这两个条件使用的是同样的设置方式。 这里我们以 A 或者 (B 并且 C 并且 D)或者 E 为例给大家解释如何设置。 以数据筛选为例(请忽略字段,条件和值的设置),设置结果如下图所示: 在设置条件时,存在“组间关系”和“组内关系”两种设置,这是为了让大家能够设置条件运算的优先级。 其中“组间关系”都是“或者”,“组内关系”都是“并且”,组内的优先运算,然后再是组之间的运算。 因此,如果需要添加“或者”条件,…

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

本文主要为大家介绍使用后羿采集器的流程图模式,采集网站上多关键词的数据。 步骤一:新建采集任务 1、复制官网的网页地址(需要搜索结果页的网址,而不是首页的网址) 更多详情内容,请参考以下教程: 如何正确地输入网址。

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文
123457