一、定时本地采集是什么? 支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。 二、如何设置定时本地采集 1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。 2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的 按钮,选择【本地采集】-【设…
一、定时本地采集是什么? 支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。 二、如何设置定时本地采集 1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。 2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的 按钮,选择【本地采集】-【设…
有些网站可能我们用系统做好的规则在采集的时候可能明明已经采集最后一页了,就是不停止,一直在最后一页循环采集,这种情况其实是由于Xpath定位不对导致的,我们需要通过修改Xpath来解决这个翻页问题。 在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的(列表循环-翻页循环): 此教程引用的示例网址:http://www.gzebpubservice.cn/dlzbgg/index_590.htm 如上图中,浏览器中要采集的数据已经在最后一页了,可…
我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。 一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到我们想要的全部数据。但有时候也会遇到一些问题:比如滚动后加载出100个列表,为什么只采集到20个?有一些列表并不是我们需要的,如何将其排除掉? 页面本来有30条列表,为什么却只能采集到10条? 这时候,就需要手动修改XPath去精准定位列表。 以下通过实例进行说明。 实例网址:https://www.made-in-chi…
通过前几课的学习,我们已经学会了采集一页数据:列表、表格、点击链接进入详情的数据。 在实际使用过程中,经常是需要翻页来采集更多的数据。对于需要翻页的网站,我们该如何操作呢? 本课将讲解常见的网页翻页类型,以及用八爪鱼实现翻页的方法。 一、点击 【下一页】按钮翻页 点击页面上的 【下一页】按钮翻页,是最常见的翻页方式。这个网站就是如此:http://www.ggzy.gov.cn/information/info/news/news.shtml 鼠标放到图片上,右键,选择【在新标签页中打开图片…
采集场景 打开B站详情页,采集视频详情页数据。 示例网址: https://www.bilibili.com/video/BV1ai4y1x7bB https://www.bilibili.com/video/BV1Wv411172X https://www.bilibili.com/video/BV17k4y117BJ 采集字段 标题、时长、发布时间、总播放数、总弹幕数、发布者、硬币、收藏量、点赞数、分享数、视频介绍、视频标签、评论数 点击查看高清大图,下文其他图片同理 采集结果 采集结果可导出为…
作为国内最大的电商平台之一,京东数据采集具有多个维度。 有人需要采集商品信息,包括品类、品牌、产品名、价格、销量等字段,以了解商品销售状况、热门商品属性,进行市场扩大和重要决策; 有人需要采集产品评论,以明确产品优缺点、市场意向,进行新商品调研优化; 除了以上之外,还有很多的应用场景等待挖掘。下面为大家详细介绍京东数据采集的方法。 京东数据采集的方法 既然京东数据采集极为需要势在必行,那么该如何进行操作呢?是找到要采集的京东网址,将数据一条条复制粘贴到excel表格中?还是找一个爬虫工程师,写爬…
配置好了八爪鱼采集规则后,我们可以对规则进行一些优化,以更稳定地采集更完整的数据。 优化方向主要有以下四种: 一、设置执行前等待 二、设置/调整Ajax超时 三、设置页面滚动 四、检查新标签的勾选是否正确 一、设置执行前等待 执行前等待的意思是:在当前步骤等待一段时间,再执行下一个步骤。 1、为什么要设置执行前等待? 原因①:避免执行步骤速度太快,很多时候网页还没加载完全就提取数据了,导致采集不到目标数据。 原因②:对于一些防采集严重的网站,如淘宝、大众点评等,适当的设置执行前等待,放慢采集速度,可…
很多用户在制作规则的时候,可能会遇到总是在一二页循环提取数据,而不会转到第三页的情况,这其实是由于Xpath定位不好导致的,我们需要通过修改Xpath来解决这个翻页问题。 在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的。 示例网址:https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%A4%A7%E6%95%B0%E6%8D%AE&a…