如何进行数据采集以及数据分析?
让我们先从数据采集说起~
下图是一个完整的数据分析过程:
一个完整的数据分析过程
数据采集:
首先,我们先对数据采集的方式进行一个简单的分类介绍。
接下来,我们分别介绍每一种数据采集形式,其中需要注意的要点。
1. 按数据采集方式
1.1 线下(问卷、实地调研)——注意要点:遵循5大要素!
5个要素:
1)主题和目的
在设计问卷之前你就要很清晰你设计这个问卷的目的和主题,才能很好的设计里面的问题,达到你想要的效果,而且我们开展问卷调查的本质目的也是调查相关要素和调研群体背后千丝万缕的联系。
例如,调查用户满意度NPS,一般涉及到产品本身和受众特点两个维度。
2)题目易读、易理解、且具有一般性
问卷分发后,是需要受众进行填写的,所以问卷的易理解程度也最终决定者问卷的质量。
问卷并不是学术论文,不需要为了彰显专业素养而涉及很多专业、晦涩难懂的词汇,让调查者能够真的看懂才是关键。
而一般性则指的是这个问题的设置是否对所有受众都具普遍意义。例如,调查居民出行方式的问卷中,你认为最安全的交通工具是,A火车 B飞机 C宝马小轿车 D电动车,我们可以看到C选项不具有普遍意义,且和A、B、D不是一个维度的选项。
3)充分考虑被调者特点
在使用问卷调查方式时,要充分结合被调群体的特色,来进行问卷的设置;例如针对学龄前儿童和老年人,则不宜采取书面问卷调研的形式,要充分考虑到他们的语言偏好、对内容的理解能力,再派出访谈调研小组进行调研。
4)充分考虑问题排序
问卷问题的设置除了考虑每个问题的规范性、合理性外,还需要考虑到问题与问题之间的逻辑性和连贯性,避免时间、空间、人称等维度的频繁跳跃。
5)充分考虑统计便利性
除了考虑问卷调查的受众外,问卷设置还需要充分考虑后期问卷回收后的统计分析;尽可能减少后期工作压力,变量不宜设置太多,应该用尽量少的变量高效获取标签信息,帮助后期研究定性。
伊利诺伊理工大学(IIT)软件工程硕士(ITM),包含数据分析方向专业课程,欢迎点击咨询~~~
1.2 线上(按数据采集端口细分为APP端和网页端)
APP端(主)——数据埋点获得相关数据:
首先,先和大家科普一下,数据埋点到底是什么?APP端又为何要特别重视数据埋点呢?
其实,所谓埋点就是在用户使用APP的过程中,对他们的一系列行为数据进行收集,以优化产品和运营;而大多APP自带服务和盈利性质(如淘宝、得到等),那么想要实现转化,引导购买就需要将“点”埋到具体的交互组件上(例如,点击跳转链接、购买按钮等),然后对PV、UV;停留时间、跳出率、购买率等指标进行量化。
可视化埋点:
利用可视化交互手段,通过可视化界面配置控件操作与事件操作发生关系,通过后台截屏的方式采集数据;例如,当用户产生多次刷新这一行动时,结合大数据算法,推算出用户的喜好并切换推送内容、产品,再通过可视化埋点,自动切换到对应的个性化推荐内容页面。
优点:
成本低,速度快,产品、市场等各部门均能参与;缺点:行为记录信息少,支持的分析方式少,减轻开发负担。
无埋点:
用户展现UI界面元素时,平台会通过控件绑定触发事件,事件被触发的时候系统会有相应的接口让开发者处理这些行为;上传UI界面后,系统能够自动识别生成控件的唯一ID,ID是在程序内部生成,只需保证在不同的手机上面这些ID是一样的,就能实现用户端的无埋点数据获取。
优点:
无需埋点,方便快捷;缺点:行为记录信息少,传输压力大。
网页端——网页爬虫(python,C…):
就具体语法而言,因为使用工具不同,并不能就具体语法提供指导,但其总体方法论是一致的。
方法论:
人工确定爬取信息的维度→分析目标网站URL构成→确认爬取工具→编写程序语言→获取数据→保存于本地→后续进行数据挖掘。
总结:
以上是数据采集的一些看法,没想到一下写了这么多,数据分析下次再写。
来源:https://zhuanlan.zhihu.com/p/451624758
文章评论