后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 网页抓取是指从互联网上获取信息或数据的过程,通常通过自动化的程序来执行。这些程序被称为网络爬虫或网络机器人,它们浏览网页、提取信息并将其存储或进一步处理。

2023年10月24日 0条评论 62点热度 0人点赞 365crawadmin 阅读全文

通过蜜蜂采集器手工录入网页数据并发布,解决对不同类型网站的少量数据摘录的需求。  

2023年9月16日 0条评论 73点热度 0人点赞 365crawadmin 阅读全文

问题: 需要翻页的网页如何采集? 回答: 后羿采集器会自动识别网页中的翻页按钮,如果自动识别有误差,可以设置手动点选。 具体操作请参考教程: 如何设置分页

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,如果遇到需要登录才能查看内容的网页,我们可以按照如下图所示的步骤进行预登陆,然后顺利完成数据采集。 具体步骤如下: 第一步:创建智能模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成” 如下图所示:   温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 具体步骤如下: 第一步:修改页面类型为“单页类型”(请参考此教程 →_→ 如何设置页面类型) 第二步:设置分页(请参考此教程 →_→如何设置分页) 第三步:添加字段 关于采集字段的更多设置请参考这篇教程:如何对采集字段进行配置

2023年9月5日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的流程图模式下,如果遇到需要登录才能查看内容的网页,软件会提示我们登录,如果没有提示,我们可以按照如下图所示的步骤进行预登录。 具体包括: 第一步:创建流程图模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成”   温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。

2023年9月5日 0条评论 74点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 在智能模式下,后羿采集器默认按照列表类型的网页进行智能识别,并完成页面列表元素内部所有字段的自动识别和采集。 如果后羿采集器自动识别的结果不符合您的需求,您可以手动点选列表。 (1)软件自动识别列表元素内部字段并进行采集 (2)手动点选列表 关于采集字段的设置可以看这里→_→ 如何对采集字段进行配置

2023年9月5日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

后羿采集器的智能模式的强大之处在于它不仅可以采集单页类型和列表类型的网页,还能够支持采集列表页+详情页的网页类型。 下面我们来详细介绍一下如何采集采集列表页+详情页内容。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步中,软件会识别出列表内容中的链接,用户也可以通过手动设置提取到链接,在此基础上,我们如果需要采集到链接对应的详情页的内容,需要用到深入采集功能。 更多详情内容,请参考以下教程: 如何设置深入采集 第三步:设置详情页数据 详情页的采集和单页类型…

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

在采集数据的过程中,我们经常会遇到需要输入验证码的情况,后羿采集器支持手动输入功能。 需要输入验证码的情况一般可以分为以下两种: 第一种,验证码出现在固定网页,例如注册/登录页面的验证码 第二种,验证码出现在不固定的网页,例如在采集过程中会跳出需要输入验证码的页面 这两种场景中,验证码的设置略有区别。 针对第一种场景,我们可以在一开始编辑采集规则时就进行设置; 针对第二种场景,我们需要先将采集规则运行起来,一直到网站弹出验证码提示了,此时我们停止采集,然后重新打开规则编辑界面进行验证码识别的设置。 本文主要介绍第一…

2023年9月5日 0条评论 78点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,下面我们给大家介绍一下如何采集这一类的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:使用深入采集进入详情页 完成列表页数据采集后,如果想要采集详情页上的数据,可以点击深入采集按钮或者点击列表识别结果中任意一个标题,然后在左侧操作栏内点击“依次点击全部元素”按钮,跳转到详情页进行采集。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:提取详情页数据 跳转到详情页之后,点击…

2023年9月5日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文