网页上的数据情况十分复杂。以京东商品列表页为例,每个列表项的字段个数并非完全一致。 如下图所示:第2、4、5个商品列表有【自营】字段,第1、3个是没有【自营】字段的。 在采集第1、3个商品列表时,找不到【自营】字段,本条数据如何处理?下文将具体说明。 示例网址:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%…
我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。 一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。但有时候也会遇到一些问题:比如列表中有的部分不是我们想要的,需要进行丢弃。 这时候,可以手动修改XPath去定位列表丢弃不需要的部分。也可以用分支判断丢弃。 以下通过实例进行说明。 实例网址:https://weibo.com/2803301701?refer_flag=1001030103_ 一…
采集场景 B站有非常多的分类(动画、音乐、舞蹈等),每个分类下都会很多热门标签。本教程采集热门分类下的视频列表数据。 标签示例网址: https://www.bilibili.com/v/douga/mad/?spm_id_from=333.5.b_7375626e6176.2#/4672 https://www.bilibili.com/v/music/cover/?spm_id_from=333.5.b_6d757369635f636f766572.23#/312357 采集字段 标签、视频时长、标题、视…
采集场景 在淘宝首页(https://s.taobao.com/)输入关键词搜索,采集搜索后得到的商品列表页数据。示例中关键词为【耐克】,可根据需求进行更换,同时支持自动批量输入多个关键词。 采集字段 采集字段包括关键字文本值,产品标题,店铺名称,产品价格,付款人数,商品链接,店铺名,品牌,发货地等。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例: 教程说明 本篇…
一、定时本地采集是什么? 支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。 二、如何设置定时本地采集 1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。 2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的 按钮,选择【本地采集】-【设…
有些网站可能我们用系统做好的规则在采集的时候可能明明已经采集最后一页了,就是不停止,一直在最后一页循环采集,这种情况其实是由于Xpath定位不对导致的,我们需要通过修改Xpath来解决这个翻页问题。 在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的(列表循环-翻页循环): 此教程引用的示例网址:http://www.gzebpubservice.cn/dlzbgg/index_590.htm 如上图中,浏览器中要采集的数据已经在最后一页了,可…
我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。 一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到我们想要的全部数据。但有时候也会遇到一些问题:比如滚动后加载出100个列表,为什么只采集到20个?有一些列表并不是我们需要的,如何将其排除掉? 页面本来有30条列表,为什么却只能采集到10条? 这时候,就需要手动修改XPath去精准定位列表。 以下通过实例进行说明。 实例网址:https://www.made-in-chi…