作者:巴德博·贝洛 软件工程师 作者选择了免费和开源基金作为“为捐赠而写”计划的一部分来接受捐赠。 介绍 网页抓取是从网络自动收集数据的过程。该过程通常会部署一个“爬网程序”,该爬虫会自动上网并从所选页面抓取数据。您可能想要抓取数据的原因有很多。首先,它通过消除手动数据收集过程使数据收集速度更快。当需要或需要数据收集但网站不提供 API 时,抓取也是一种解决方案。 在本教程中,您将使用 Node.js 和 Puppeteer 构建一个 Web 抓取应用程序。随着您的进步,您的应用将变得越来越复杂。首先,您将编写应用…

2023年10月27日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

“嘿 ChatGPT,给我写一个关于网络抓取的双关语。” “为什么网络爬虫被踢出学校?它一直在逃课!明白了吗?就像一个 HTML 类。 不错,ChatGPT。从公共互联网上抓取了大约 570 GB 的数据,经过多年的开发,才想出了这个数据。 ChatGPT 是为其提供动力的大型语言模型和类似的 AI 系统,通过合成大规模网络抓取期间收集的数据进行训练。这导致许多人(包括作者和社交媒体平台)重新审视数据权利和所有权,因为人工智能模型使用他们免费提供的数据。 尽管人工智能是它的新背景,但网络抓取实际上是一种古老的做法—…

2023年10月27日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

采集场景 空天院遥感数据服务系统页面 http://eds.ceode.ac.cn/nuds/freedataquery设置查询条件,采集查询展示的卫星数据。             采集字段 数据标识 、卫星和传感器、 成像时间 、链接等字段。       采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:           教程说明 本篇制作时间:2022/2/27    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、设置筛选条件…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

采集场景 在hotsom网站页面https://export.hotosm.org/en/v3/exports循环点击每个链接,采集详情页展示的详细数据。 列表页面:     详情页面:     采集字段 Description、Id、Project Area、Createdat、Createdby、published、ExportFormats、OSMAnalysis、Status、ID、Finished、Duration、ShapeFile、ShapeFileUrl、GeoPackage、GeoPackageU…

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

问题: 网站在软件中打不开怎么办? 回答: 1. 检查网页在浏览器中是否可以正常打开,如果在浏览器中也无法打开,则是网页本身问题。2. 在浏览器中可以打开,在后羿采集器中打不开,则可以尝试在任务设置里开启网页安全选项。

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集XX网站吗? 回答: 后羿采集器支持大部分网站的采集。有2种采集方式: 智能模式:基于人工智能算法,只需输入网址就能智能识别列表数据、表格数据和分页按钮。 基本操作流程可以参考官网的教程: 智能模式 基本操作流程 流程图模式:只需根据软件提示在页面中进行点击操作,完全符合人为浏览网页的思维方式。 基本操作流程可以参考官网的教程: 流程图模式 基本操作流程 【温馨提示】为了保护您的隐私,您所有的任务及配置都以加密形式存储于云端,除了您个人外任何人都无法查看具体的内容,您在采集过程中输入的账号密…

2023年9月5日 0条评论 37点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集国外网站的数据吗? 回答: 后羿采集器的原理和复制粘贴类似,理论上来说只要是网页上或者是源代码里有的数据都能够采集。 只要您的目标网站能够在软件里打开,理论上就是能够采集的。 【温馨提示】软件本身没有翻墙功能,如果海外网站是需要翻墙才能访问的,还请自行翻墙。后羿采集器官方无法提供任何关于如何翻墙的帮助,还请理解,实在抱歉。

2023年9月5日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

问题: 目标网站需要翻墙才能访问怎么办? 回答: 后羿采集器内置浏览器访问网页,与使用普通浏览器访问网页是一样的。如果国外网站需要翻墙才能访问,那么就需要现在本地电脑上进行翻墙,然后再用采集器进行数据采集。软件本身是没有翻墙功能的,后羿采集器官方无法提供任何关于如何翻墙的帮助,还请理解,实在抱歉。

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

问题: 电商网站的评论采集不出来怎么办? 回答: 部分电商网站会针对评论页面的展开进行限制,需要在软件内添加组件进行跳转。 智能模式需要先在右上角绿色按钮“预执行操作”界面添加以下组件:定时等待+滚动(设置成滚动一屏次数一次)+滚动+定时等待+点击(选中跳转到评论的按钮)+定时等待

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器可以直接将采集到的数据发布到网站吗? 回答: 由于涉及到版权的问题,导出到网站有很大的法律风险。所以后羿采集器暂时不支持导出到网站的功能。您可以选择先将数据导出到MySql等数据库,再通过数据库发布到网站。

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文
12