4. 数据统计分析基础知识
什么是数据分析
-
专业
有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术
-
客观
从行业的角度看,数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程
-
本质
数据分析包括3个方面:目标、方法和结果。
- 目标:数据分析的关键再与设立目标,专业上叫做『有针对性』
- 方法:数据分析的方法包括统计分析和数据挖掘
- 结果:数据分析最终结果要得出分析的结果,结果对目标解释的强弱,结果的应用效果如何。
数据分析六步曲
明确分析目的和内容
对数据分析目的的把握是数据分析项目成败的关键。
- 数据分析的对象是什么?
- 数据分析的目的是什么?
- 最终的结果是要解决什么业务问题?
数据收集
如何准确有效的收集数据,从而客观全面地反映要研究的问题的真实情况。
数据处理
数据预处理是指对收集到的数据进行加工、整理,以便开展后续的数据分析。
数据预处理主要包括以下几个步骤:
- 数据审查
检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与研究目的要求一致,是否全面,包括利用描述性统计分析,检查各个字段的字段类型,字段的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。 - 数据清理
对数据审查中发现的错误值、缺失值、异常值、可疑数据,选用适当的方法进行清理。 - 数据转换
不同字段由于计量单位不同,往往造成数据不可比。需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化、归一化等。 - 数据验证
初步评估和判断数据是否满足统计分析的需求,从而决定是否需要增加或减少数据量。利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关性分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中。
上面4个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值和空值个数等),接着对发现的问题进行处理,即数据清理;再就是提高数据的可比性,对数据进行一些变换,使数据形式上满足分析的需要;最后则是进一步检测数据内容是否满足分析需要,诊断数据的真实性及数据之间的协调性等。
数据分析
数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。
-
常用的数据分析方法
- 要掌握期望、方差、中位数、众数等数据描述方法;
- 要了解回归、分类、聚类、时间序列数据分析等方法的原理、使用范围、优缺点和结果的解释
-
常用的数据分析工具
SPSS, R, Matlab, SAS, Python等
数据展现
一般情况下,数据分析的结果都是通过图、表的方式来展现。
常用的图表包括:饼状图、折线图、柱状图/直方图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等。
报告撰写
最后阶段,就是撰写数据分析报告,对整个数据分析成果进行呈现。
通过报告,把数据分析的目的、过程、结果及方案完成的呈现出来。
数据分析报告要有明确的结论、建议和解决方案,而不仅仅是找出问题,更重要的是解决问题。