网页上的数据情况十分复杂。以京东商品列表页为例,每个列表项的字段个数并非完全一致。   如下图所示:第2、4、5个商品列表有【自营】字段,第1、3个是没有【自营】字段的。 在采集第1、3个商品列表时,找不到【自营】字段,本条数据如何处理?下文将具体说明。 示例网址:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%…

2023年9月5日 0条评论 95点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。     一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。但有时候也会遇到一些问题:比如列表中有的部分不是我们想要的,需要进行丢弃。   这时候,可以手动修改XPath去定位列表丢弃不需要的部分。也可以用分支判断丢弃。     以下通过实例进行说明。   实例网址:https://weibo.com/2803301701?refer_flag=1001030103_     一…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

采集场景 在维基百科网页面 https://zh.wikipedia.org/wiki循环输入多个关键词,采集搜索后展示的多个名词解释的详细数据。       采集字段 岛屿、位置、坐标、群岛、面积 、最高海拔、最高点、人口等字段。   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       教程说明 本篇制作时间:2022/2/28    八爪鱼版本:V8.5.1.21611   采集步骤  步骤一、打开网页 步骤二、批量输入多个关键词并搜索 步骤三、提取检索…

2023年9月5日 0条评论 101点热度 0人点赞 365crawadmin 阅读全文

云采集日志主要有两个方面的应用:

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

采集场景 B站有非常多的分类(动画、音乐、舞蹈等),每个分类下都会很多热门标签。本教程采集热门分类下的视频列表数据。 标签示例网址: https://www.bilibili.com/v/douga/mad/?spm_id_from=333.5.b_7375626e6176.2#/4672 https://www.bilibili.com/v/music/cover/?spm_id_from=333.5.b_6d757369635f636f766572.23#/312357    采集字段 标签、视频时长、标题、视…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

采集场景 在淘宝首页(https://s.taobao.com/)输入关键词搜索,采集搜索后得到的商品列表页数据。示例中关键词为【耐克】,可根据需求进行更换,同时支持自动批量输入多个关键词。   采集字段 采集字段包括关键字文本值,产品标题,店铺名称,产品价格,付款人数,商品链接,店铺名,品牌,发货地等。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:   教程说明 本篇…

2023年9月5日 0条评论 93点热度 0人点赞 365crawadmin 阅读全文

一、定时本地采集是什么?   支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。   二、如何设置定时本地采集   1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。     2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的   按钮,选择【本地采集】-【设…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

有些网站可能我们用系统做好的规则在采集的时候可能明明已经采集最后一页了,就是不停止,一直在最后一页循环采集,这种情况其实是由于Xpath定位不对导致的,我们需要通过修改Xpath来解决这个翻页问题。   在出现这个问题的时候,我们可以直接在流程里面找到问题所在,下面的规则是直接按照新手入门的步骤做的(列表循环-翻页循环): 此教程引用的示例网址:http://www.gzebpubservice.cn/dlzbgg/index_590.htm            如上图中,浏览器中要采集的数据已经在最后一页了,可…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

1、正则表达式简介 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个【规则字符串】,这个【规则字符串】用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。   2、正则的用途 字符串匹配(字符匹配) 字符串查找 字符串替换   3、常用元字符及描述 \d 匹配一个数字字符。等价于[0-9] \D 匹配一个非数字字符。等价于[^0-9]…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。   一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到我们想要的全部数据。但有时候也会遇到一些问题:比如滚动后加载出100个列表,为什么只采集到20个?有一些列表并不是我们需要的,如何将其排除掉? 页面本来有30条列表,为什么却只能采集到10条?   这时候,就需要手动修改XPath去精准定位列表。   以下通过实例进行说明。   实例网址:https://www.made-in-chi…

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文
13456713