后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 网页抓取是指从互联网上获取信息或数据的过程,通常通过自动化的程序来执行。这些程序被称为网络爬虫或网络机器人,它们浏览网页、提取信息并将其存储或进一步处理。
后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 网页抓取是指从互联网上获取信息或数据的过程,通常通过自动化的程序来执行。这些程序被称为网络爬虫或网络机器人,它们浏览网页、提取信息并将其存储或进一步处理。
1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 在智能模式下,后羿采集器默认按照列表类型的网页进行智能识别,并完成页面列表元素内部所有字段的自动识别和采集。 如果后羿采集器自动识别的结果不符合您的需求,您可以手动点选列表。 (1)软件自动识别列表元素内部字段并进行采集 (2)手动点选列表 关于采集字段的设置可以看这里→_→ 如何对采集字段进行配置
后羿采集器的智能模式的强大之处在于它不仅可以采集单页类型和列表类型的网页,还能够支持采集列表页+详情页的网页类型。 下面我们来详细介绍一下如何采集采集列表页+详情页内容。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步中,软件会识别出列表内容中的链接,用户也可以通过手动设置提取到链接,在此基础上,我们如果需要采集到链接对应的详情页的内容,需要用到深入采集功能。 更多详情内容,请参考以下教程: 如何设置深入采集 第三步:设置详情页数据 详情页的采集和单页类型…
在采集数据的过程中,我们经常会遇到需要输入验证码的情况,后羿采集器支持手动输入功能。 需要输入验证码的情况一般可以分为以下两种: 第一种,验证码出现在固定网页,例如注册/登录页面的验证码 第二种,验证码出现在不固定的网页,例如在采集过程中会跳出需要输入验证码的页面 这两种场景中,验证码的设置略有区别。 针对第一种场景,我们可以在一开始编辑采集规则时就进行设置; 针对第二种场景,我们需要先将采集规则运行起来,一直到网站弹出验证码提示了,此时我们停止采集,然后重新打开规则编辑界面进行验证码识别的设置。 本文主要介绍第一…
在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,下面我们给大家介绍一下如何采集这一类的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:使用深入采集进入详情页 完成列表页数据采集后,如果想要采集详情页上的数据,可以点击深入采集按钮或者点击列表识别结果中任意一个标题,然后在左侧操作栏内点击“依次点击全部元素”按钮,跳转到详情页进行采集。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:提取详情页数据 跳转到详情页之后,点击…
在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,本文将为大家介绍如何采集这一类的数据。 第一步:采集列表页数据 输入网址后,软件会自动识别列表上的数据,用户可以在这个基础上对字段进行设置。 点此了解更多如何采集列表页数据 第二步:使用深入采集进入详情页 采集完列表页上的数据后,我们需要采集详情页上的数据,可以选中链接使用深入采集,也可以点击链接直接进入详情页。 点此了解如何使用深入采集功能。 第三步:点击页面上按钮获得采集字段 当遇到详情页信息需要点击才会显示的情况,我们可以…
1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 1)软件可以准确识别列表的情况 点击列表中的任一行,软件会自动识别出列表并给出提示,选择“提取列表中的数据”。 软件会自动识别当前页面的分页按钮,我们可以根据提示设置自动翻页操作。 更多详情内容,请参考以下教程: 如何设置分页
有的网页包含iframe框架,在八爪鱼中也需进行相应设置,本教程将详细讲解。 1、什么是iframe框架? 通俗来说,iframe框架就是在同一个页面中有多个网页,也就是网页中嵌套了其他的网页。 iframe框架可能有一层,也可能有多层。 如何判断网页有几层iframe框架? 借助火狐浏览器的irebug和firepath插件,我们可以很容易地判断出网页有几层iframe框架。 如果没有安装,请查看 火狐浏览器的irebug和firepath插件安装教程 。 安装好后,点击【Top Window】位置,会…
1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置