配置好了八爪鱼采集规则后,我们可以对规则进行一些优化,以更稳定地采集更完整的数据。 优化方向主要有以下四种:   一、设置执行前等待 二、设置/调整Ajax超时 三、设置页面滚动 四、检查新标签的勾选是否正确     一、设置执行前等待 执行前等待的意思是:在当前步骤等待一段时间,再执行下一个步骤。   1、为什么要设置执行前等待? 原因①:避免执行步骤速度太快,很多时候网页还没加载完全就提取数据了,导致采集不到目标数据。 原因②:对于一些防采集严重的网站,如淘宝、大众点评等,适当的设置执行前等待,放慢采集速度,可…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

采集场景 在hotsom网站页面https://export.hotosm.org/en/v3/exports循环点击每个链接,采集详情页展示的详细数据。 列表页面:     详情页面:     采集字段 Description、Id、Project Area、Createdat、Createdby、published、ExportFormats、OSMAnalysis、Status、ID、Finished、Duration、ShapeFile、ShapeFileUrl、GeoPackage、GeoPackageU…

2023年9月5日 0条评论 68点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集手机APP里面的数据吗? 回答: 后羿采集器是一款采集网页的采集软件,是基于网页网址去进行规则配置和数据采集的。 如果数据有网址,可以在电脑的浏览器里面打开,一般就可以采集。 如果数据只能在APP里面查看,没有网址,那就无法通过后羿采集器直接采集。

2023年9月5日 0条评论 79点热度 0人点赞 365crawadmin 阅读全文

本文主要为大家介绍使用后羿采集器的流程图模式,采集网站上多关键词的数据。 步骤一:新建采集任务 1、复制官网的网页地址(需要搜索结果页的网址,而不是首页的网址) 更多详情内容,请参考以下教程: 如何正确地输入网址。

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

有很多网站,我们需要采集需要鼠标移动上去才会出现数据。   例如:在阿里巴巴列表页,移动到非广告商品图片,会出现同款数量、同款链接等字段,我们需要采集这些数据。     在八爪鱼中该如何操作呢?来看一下具体的操作步骤。   步骤一、打开网页   在首页【输入框】中输入目标网址https://s.1688.com/selloffer/offer_search.htm?keywords=%C5%AE%D7%B0&n=y&netType=1%2C11%2C16,点击【开始采集】,八爪鱼自动打开网页。   …

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

有很多网站,需要向下滚动页面,才能加载出新数据。那相对应的,在八爪鱼中也需设置【页面滚动】。 适用场景:将滚动条直接下来到网页底部,出现类似【加载中】字样,稍后马上有新数据出现,且滚动条变短回弹。 常见的网页:澎湃新闻首页、今日头条首页、百度图片搜索、新浪微博首页,都是这种情况。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   以澎湃新闻首页为例。https://www.thepaper.cn/,我们需采集新闻列表数据。就需要在打开网页后不断向下滚动,加载新数据。  …

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集国外网站的数据吗? 回答: 后羿采集器的原理和复制粘贴类似,理论上来说只要是网页上或者是源代码里有的数据都能够采集。 只要您的目标网站能够在软件里打开,理论上就是能够采集的。 【温馨提示】软件本身没有翻墙功能,如果海外网站是需要翻墙才能访问的,还请自行翻墙。后羿采集器官方无法提供任何关于如何翻墙的帮助,还请理解,实在抱歉。

2023年9月5日 0条评论 81点热度 0人点赞 365crawadmin 阅读全文

软件的数据迁移是指软件升级到4.x版本后,当前软件设置及任务已采集到的数据将会丢失,所以我们需要对数据进行备份迁移。    

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

在数据采集过程中,我们可能有这样的需求:第一次采集所有数据,后续再采集的时候只需要采集网页上新增的数据。 自动采集新增数据的需求,可以通过八爪鱼的定时云采集配合多种策略实现,以下将结合实例详细讲解。 注意:定时云采集是八爪鱼采集器团队版及以上版本才具有的功能(旧套餐旗舰版及以上版本),详情请看 版本介绍 。   实例网址:http://www.gdgpo.gov.cn/queryMoreInfoList/channelCode/0008.html 采集需求:定时采集广东省政府采购网列表中新增的公告标题、标题链接和发…

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

一、什么是【边滚动边采集数据】   有很多网站,需要向下滚动页面,才能加载出新数据,像 今日头条首页、百度图片搜索、新浪微博首页 等页面都是这种情况。 在采集这类网页数据时,相对应的在八爪鱼中也需设置【页面滚动】。   八爪鱼V8.2.0之前的版本,需按照设置的滚动次数,将页面全部滚动完成之后,才会开始采集数据。 例:设置滚动20次,则需等页面滚动20次后,一次性采集前20次滚动后加载的全部数据。 详情请看教程:滚动加载数据采集方法   V8.2.0版本新增【边滚动边采集数据】功能,可以边滚动页面边采集数据。 例:…

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文
1678910