作为国内最大的电商平台之一,京东数据采集具有多个维度。
有人需要采集商品信息,包括品类、品牌、产品名、价格、销量等字段,以了解商品销售状况、热门商品属性,进行市场扩大和重要决策;
有人需要采集产品评论,以明确产品优缺点、市场意向,进行新商品调研优化;
除了以上之外,还有很多的应用场景等待挖掘。下面为大家详细介绍京东数据采集的方法。
京东数据采集的方法
既然京东数据采集极为需要势在必行,那么该如何进行操作呢?是找到要采集的京东网址,将数据一条条复制粘贴到excel表格中?还是找一个爬虫工程师,写爬虫程序进行采集?
于普通人而言,这两种方法成本极高,效率低下——第一种耗费大量人力,还可能有多次出错;第二种成本很高且需要较长的学习时间,短时间内难以完成。有没有一种普通人都能简单采集京东的方法呢?八爪鱼是简单好用的选择。
以下是我们整理的几个京东数据采集教程,大家可以按图文描述来操作即可,字段提取可根据自己的实际需求增减。
一、京东商品信息采集
采集内容:京东搜索关键词后,出现的商品列表信息采集
采集字段:商品标题,商品链接,商品价格,商品图片链接,商品评价数量,商品店铺名称,商品店铺链接
采集网址:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=shouji&pvid=83e1eebb721c487f894c8de29435a7dd
采集教程:
步骤一 、创建一个新任务,输入网址
在首页【输入框】中输入目标网址,点击【开始采集】。点击【保存设置】,八爪鱼中内置的浏览器会自动打开网页,进行智能识别,稍微等待一会儿,八爪鱼识别好之后,检查采集设置是否正确,若识别正确,则点击【生成采集设置】,若识别不对,可以点击【切换识别按钮】链接,直到找到识别正确的结果。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
步骤二 、编辑字段
八爪鱼自动为我们提取了列表中的所有字段,我们可以对这些字段进行删除、修改字段名称等操作。
1、删除不需要的字段。选中字段,再点击【更多字段操作】图标,选择删除。
2、修改字段名称。字段名称相当于excel表头,可选择默认字段名,也可自定义输入。
步骤三 、启动采集
1、点击【保存】,选择【启动本地采集】。启动后八爪鱼开始全自动采集数据。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集)
2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导出为Excel。
数据示例:
二、京东商品详情页采集
采集内容:采集京东商品详情页的商品详细信息。
采集字段:商品名称,价格,优惠券,促销,颜色,sku,商品基本参数,详情HTML,店铺名称,商品属性,页面网址,优惠券,轮播图等等。
采集网址:
https://item.jd.com/100011199522.html
https://item.jd.com/100004559325.html
https://item.jd.com/100006947212.html
https://item.jd.com/100008348542.html
https://item.jd.com/100010260230.html
采集教程:
1、首页【输入框】输入“京东商品详情”。八爪鱼自动寻找相关的采集模板,将鼠标移到“京东商品详情采集”模板上并单击,进入模板详情页面。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
特别说明:
a. 输入网站名称后无模板出现?请确保输入的网站名称正确。
2、点击【立即使用】,阅读模板介绍,按照模板介绍进行操作。
3、自行【配置参数】。输入商品详情页链接,如:
https://item.jd.com/100011199522.html
https://item.jd.com/100004559325.html
https://item.jd.com/100006947212.html
https://item.jd.com/100008348542.html
https://item.jd.com/100010260230.html
如要输入多个(1万个以内)网址,请每个网址之间用回车换行。支持直接从Excel表格中直接复制黏贴一列网址进来。
4、然后点击【保存并启动】,选择启动【本地采集】。八爪鱼自动启动1个采集任务并采集数据。
5、数据采集完成以后,可以需要的格式导出。这里以导出为【Excel】为例。
数据示例:
三、京东评论信息采集
采集内容:采集京东商品详情页的商品评价信息。
采集字段:页面标题,页面网址,评论数,点赞数,时间,评价内容,评价星级,级别,会员
采集网址:
https://item.jd.com/100009177374.html
https://item.jd.com/100004559325.html
采集教程:
1、首页【输入框】输入“京东”。八爪鱼自动寻找相关的采集模板,将鼠标移到“京东商品评论”模板上并单击,进入模板详情页面。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
特别说明:
a. 输入网站名称后无模板出现?请确保输入的网站名称正确。
2、点击【立即使用】,阅读模板介绍,按照模板介绍进行操作。
3、自行【配置参数】。输入商品详情页链接,如:
https://item.jd.com/100009177374.html
https://item.jd.com/100004559325.html
若要输入多个(1万个以内)网址,请每个网址之间用回车换行。支持直接从Excel表格中直接复制黏贴一列网址进来。输入要翻页的次数,即点击下一页的次数。请输入数字,如“5”,可实现只采集前5页的内容。京东评论的限制最多显示前100页数据。
4、然后点击【保存并启动】,选择启动【本地采集】。八爪鱼自动启动1个采集任务并采集数据。
5、数据采集完成以后,可以需要的格式导出。这里以导出为【Excel】为例。
数据示例:
文章评论