第一章:数据分析概论:
本章主要介绍数据分析的概念、分析步骤和分析方法,介绍如何在Excel2013年安装数据分析工具,以及如何安装SPSS数据分析软件,这是在后续课程中进行数据分析的基础。
1.1数据分析定义
a.目标:数据分析的关键在于设立目标,有针对性
b.方法:数据分析的方法包括统计分析和数据挖掘两种
c.结果:数据分析最终要得出分析的结果,结果对目标解释的强弱,结果的应用效果如何。
1.2数据分析六步曲
明确分析目标和内容——数据收集——数据处理——数据分析——数据展现——报告撰写
1.2.1明确分析目的和内容
对于数据分析目的的把我,是数据分析相关成败的关键。只有对数据分析的目标有深刻的理解,才能整理出完整的分析框架和分析思路,因为根据不同的数据分析目的所选择的数据分析方法是不同的。
1.2.2数据收集
是按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它是数据分析的基础。
通常数据收集的方法包括观察法,访谈法,问卷法,测验法等。
1.2.3数据预处理
第一步:数据审查
检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与研究目标的要求一致,是否全面,包括利用描述性统计分析,检查各个字段的字段类型,字段值的最大值、最小值、平均数、中位数等,记录个数、缺失值或空值个数等。
第二步:数据清理
针对数据审查过程中发现的明显错误值,缺失值,异常值,可疑数据以及重复记录数据选用适当的方法进行“清理”,使脏数据变为干净数据,使得后续的数据分析得出可靠的结论。
第三步:数据转换
数据分析强调分析对象的可比性,但不同字段值由于计量单位等不同,往往造成数据不可比。
一些统计指标进行综合评价时,如果统计指标的性质,计量单位不同,那么很容易引起评价结果出现极大误差,再加上分析过程中的其他一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换,汇总和聚集,适度概化,规范化以及属性构造等。
第四步:数据验证
目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。利用简单的线性模型以及散点图,直方图,折线图等图形进行探索性分析,利用相关性分析,一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中。
意义:
逐步深入,由表及里的过程,显示从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值或空值个数等),接着对发现的问题进行处理,即数据清理;再就是提高数据的可比性,对数据进行一些变换,使得数据形式上满足分析的需要,最后就是进一步检测数据内容是否满足分析需要,诊断数据的真实性和数据之间的协调性,确保优质的数据进入分析阶段。
1.2.4数据分析
1.定义:
通过分析手段,方法和技巧对准备好的数据进行探索,分析,从中发现因果关系,内部联系和业务规律,为商业目的提供决策参考。
2.掌握工具:
2.1熟悉常规数据分析方法,基本的了解例如:方差,回归,因子,聚类,分类,时间序列等数据分析方法的原理,使用范围,优缺点和结果解释。
2.2熟悉工具至少一种以上,Excel(最常见)
2.3要熟悉专业的分析软件(SPSS/R/MATLAB/SAS)便于进行一些专业统计分析,数据建模等。
1.2.5数据展现
常用图表:饼形图,折线图,柱形图/条形图,散点图,雷达图,金字塔图,矩阵图,漏斗图,帕累托图等。
1.2.6报告撰写
定义:撰写数据分析报告,是对整个数据分析成果的一个呈现,通过分析报告,把数据分析的目的,过程,结果以及方案完整呈现出来,以为达成商业目的提供参考。
数据分析报告:
好的分析框架
图文并茂
层次明细
结构清晰,主次分明
明确的结论,建议和解决方案(解决问题是分析报告的灵魂和初衷)
1.3数据分析方法简介
数据分析方法:
1.统计分析方法
2.数据挖掘方法
1.3.1统计分析方法介绍
1.描述性统计分析(description statistics):
通过图表或者数学方法,对数据资料进行整理,分析,并且对数据的分布状态,数字特征和随机变量之间的关系进行评估和描述的方法。描述性统计分析分为:
1.1集中趋势分析:主要是靠平均数,中数,众数等统计指标来表示数据的集中趋势。
1.2离中趋势分析:全距,四分差,平均差,方差,标准差等统计指标来研究数据的离中趋势。
1.3相关分析:研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究。
2.回归分析(regression):
是确定两种或两种以上的变数间相互依赖的定量关系和一种统计分析方法。
2.1一元回归分析
2.2多元回归分析
3.对应分析(correspondence analysis):
又称“关联分析”,“R-Q型因子分析”,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
4.因子分析(factor analysis):
是指研究从变量群众提取共性因子的统计技术。
因子分析就是从大量的数据中寻找内在的联系,减轻觉困难的分析方法。
因子分析方法:重心法,影像分析法,最大似然解法,最小平方法,阿尔法抽因发,拉奥典型抽因法。
本质都是属于近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。
5.方差分析(analysis of variance,简称:ANOVA):
又称“变异数分析”、“F检验”,是R.A.Fisher发明的分析方法,用于两个或者两个以上的样本均数差别的显著性检验。
研究存在的波动原因:
一个是不可控的随机因素,
一个是研究中时间的对结果形成影响的可控因素。
1.3.2数据挖掘发放简介
1.聚类分析(cluster analysis):
将物理或者抽象对象的集合分成为由类似的对象组成的多个类的分析过程。
2.分类分析
(1)决策树(decision tree)
定义
优缺点
(2)人工神经网络(artificial neural networks,简称ANNs)
定义
优缺点
(3)贝叶斯分类方法(Bayesian classification)
定义
优缺点
(4)支持向量机(support vector machine)
定义
优缺点
(5)随机森林(random forest,简称为RF)
定义
优缺点
3.关联规则(association rule)
是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(frequent pattern),即多次重复出现的模式和并发关系(cooccurrence relationships),即同时出现的关系,频繁和并发关系也称作关联(association)。
应有于纯文本文档和网页文件。
4.回归分析(regression)
包括线性回归(linear regression),这里主要是指多元线性回归和逻辑斯蒂回归(logistic regression)。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它包括相应预测,分类划分等内容。
1.3.3统计分析与数据挖掘的区别和联系
1.统计分析与数据挖掘的联系
2.数据分析与数据挖掘的区别
1.4常用数据分析工具安装
1.4.1在Excel2013中安装数据分析工具
(略)
1.4.2数据分析软件SPSS的安装
(略)
1.5课后练习
(略)