采集场景 在维基百科网页面 https://zh.wikipedia.org/wiki循环输入多个关键词,采集搜索后展示的多个名词解释的详细数据。       采集字段 岛屿、位置、坐标、群岛、面积 、最高海拔、最高点、人口等字段。   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       教程说明 本篇制作时间:2022/2/28    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、批量输入多个关键词并搜索 步骤三、提取检索…

2023年9月5日 0条评论 101点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集XX行业的数据吗? 回答: 可以,我们软件是一款采集网页数据的通用软件。所以首先需明确XX行业的数据存在于哪个网站上。例如,电商行业的数据在电商网站上有,那么采集电商行业的数据,就转化成采集电商网站了。 此时可以参考以下问题: 后羿采集器能采什么数据? 【温馨提示】为了保护您的隐私,您所有的任务及配置都以加密形式存储于云端,除了您个人外任何人都无法查看具体的内容,您在采集过程中输入的账号密码以及您的采集结果都存在您的本地电脑中。但请您严格遵守相关的法律法规,若后羿采集器官方收到任何关于非法采…

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

1、连接问题总结 (1)宝塔控制面板 使用此管理工具时需要注意mysql数据库访问权限设置,和远程访问端口的开放。 (2) localhost、192.168.xxx.xxx 使用此类主机地址需要注意是本机需要开启MySQL服务 (3)不确定报错详请 可使用navicat先确定具体报错详情 2、字段映射问题总结 (1)字段类型 仅支持数据表中字符串和整型字段的映射(如果需要映射日期字段,需要将数据表中对应字段改成字符串类型) (2)字段长度 需要注意字段长度是否可以满足本地采集的数据长度 3、导出中的错误日志总结:…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

采集场景 在智联招聘地区招聘搜索页(https://sou.zhaopin.com/?jl=765), 输入关键词搜索(示例中的搜索关键词为【爬虫工程师】),搜索后得到招聘信息列表页。点击职位链接,进入职位详情页,采集详情页数据。   采集字段 职位名称、职位薪资、职位描述、职位链接等。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     采集步骤 步骤一:打开网页 …

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

采集场景 空天院遥感数据服务系统页面 http://eds.ceode.ac.cn/nuds/freedataquery设置查询条件,采集查询展示的卫星数据。             采集字段 数据标识 、卫星和传感器、 成像时间 、链接等字段。       采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:           教程说明 本篇制作时间:2022/2/27    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、设置筛选条件…

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集QQ邮箱 / 用户浏览数据 / 卖家信息 / 客户数据吗? 回答: 后羿采集器的原理和复制粘贴类似,理论上来说只要是网页上或者是源代码里有的数据都能够采集。 但是您需要的QQ邮箱/用户浏览数据/卖家信息/客户数据等数据,这些数据属于敏感数据,是违法的,后羿采集器官方不提供任何形式的采集指导。

2023年9月5日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

配置好了八爪鱼采集规则后,我们可以对规则进行一些优化,以更稳定地采集更完整的数据。 优化方向主要有以下四种:   一、设置执行前等待 二、设置/调整Ajax超时 三、设置页面滚动 四、检查新标签的勾选是否正确     一、设置执行前等待 执行前等待的意思是:在当前步骤等待一段时间,再执行下一个步骤。   1、为什么要设置执行前等待? 原因①:避免执行步骤速度太快,很多时候网页还没加载完全就提取数据了,导致采集不到目标数据。 原因②:对于一些防采集严重的网站,如淘宝、大众点评等,适当的设置执行前等待,放慢采集速度,可…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文

采集场景 在hotsom网站页面https://export.hotosm.org/en/v3/exports循环点击每个链接,采集详情页展示的详细数据。 列表页面:     详情页面:     采集字段 Description、Id、Project Area、Createdat、Createdby、published、ExportFormats、OSMAnalysis、Status、ID、Finished、Duration、ShapeFile、ShapeFileUrl、GeoPackage、GeoPackageU…

2023年9月5日 0条评论 72点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集手机APP里面的数据吗? 回答: 后羿采集器是一款采集网页的采集软件,是基于网页网址去进行规则配置和数据采集的。 如果数据有网址,可以在电脑的浏览器里面打开,一般就可以采集。 如果数据只能在APP里面查看,没有网址,那就无法通过后羿采集器直接采集。

2023年9月5日 0条评论 82点热度 0人点赞 365crawadmin 阅读全文
1678910