现在很多网站采用异步请求方式来展现网页内容,而异步请求中的内容多为JSON格式。如果采用可视化采集技术,则要展示这样的页面内容,需要先加载各种css、js文件,速度较慢,网页的可视化展示也比较占用系统资源;采集网页过程中页面呈现可能偶尔会卡住,也非常影响体验。 对这种JSON格式异步数据的采集,如果采用传统采集方式,使用JSON表达式解析,也可以很方便。 下面以同花顺的“7×24小时要闻直播”为例,使用蜜蜂采集器进行简单的采集测试。 我们先使用浏览器访问同花顺的“7&…

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

配置好了八爪鱼采集规则后,我们可以对规则进行一些优化,以更稳定地采集更完整的数据。 优化方向主要有以下四种:   一、设置执行前等待 二、设置/调整Ajax超时 三、设置页面滚动 四、检查新标签的勾选是否正确     一、设置执行前等待 执行前等待的意思是:在当前步骤等待一段时间,再执行下一个步骤。   1、为什么要设置执行前等待? 原因①:避免执行步骤速度太快,很多时候网页还没加载完全就提取数据了,导致采集不到目标数据。 原因②:对于一些防采集严重的网站,如淘宝、大众点评等,适当的设置执行前等待,放慢采集速度,可…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

如果用八爪鱼配置规则,采集数据出现异常,我们如何快速找出并解决问题?如何更好与客服沟通? 本教程将讲解规则排错的基本思路与方法。   一、手动执行规则   做好采集规则以后,我们最好手动执行一下规则,检查规则是否满足采集需求。 手动执行规则是什么意思?打开流程图界面,按照从上至下,由内而外的逻辑(点击查看 流程执行逻辑教程),将每个步骤都点击一遍,并观察点击步骤后的页面情况。如果符合预期,没问题。如果不符合预期,则需要修改。   1、手动执行规则,符合预期   特别说明: a. 在点击【循环列表】时,最好选择除第1…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

通过八爪鱼云采集,可以实现多个任务并发采集,极大提高采集效率。 云采集原理是什么?什么样的规则可实现云加速?本文将详细讲解。   一、云采集原理 云采集是指,使用由八爪鱼提供的云服务集群进行数据采集。八爪鱼拥有5000+云服务器,7*24小时不间断运行(一台云服务器可看做一个云节点)。   八爪鱼的采集任务运行在云节点上时: a. 在满足可拆分的情况下,1个任务最多拆成100个子任务。(3类任务可拆分,下文将详细讲解) b. 1个任务/子任务需占用一个云节点进行采集。也就是说,1个云节点同时只能运行一个任务/子任务…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

   请联系客服,将system目录下可用的hostlist.dat替换客户目录下的对应文件

2023年9月4日 0条评论 63点热度 0人点赞 365crawadmin 阅读全文