《数据分析的统计基础》学习笔记(一) 数据分析概述
在当前大数据这么火的背景下,跟上步伐变得尤为重要,所以选择了《数据分析的统计基础》进行学习。
第一章主要采用筛选书的主题内容(大部分照着书敲了一遍加深记忆)并添加了百度百科的链接方便查阅里面的数学知识。
1.1 什么是数据分析
专业:有针对性的收集,加工,整理数据,并采用统计,挖掘技术分析和解释数据的科学和艺术。
客观:从行业的角度看,数据分析是基于某种行业目的,有目的地进行收集,整理,加工,和分析数据,提炼有价值信息的一个过程。
本质:a.目标,数据分析的关键在于设立目标,专业上叫做“有针对性”
b.方法,包括统计分析和数据挖掘
c.结果,数据分析最终要得出分析结果,结果对目标解释的强弱,结果的应用效果如何。
1.2 数据分析六步曲
明确分析目的和内容=》数据收集=》数据预处理=》数据分析=》数据展现=》报告撰写
1.2.1 明确分析目的和内容
分析对象是谁?商业目的是什么?解决什么业务问题?
1.2.2 数据收集
观察法,访谈法,问卷法,测验法等
1.2.3 数据预处理
a.数据审查
记录数是否满足最低要求,内容是否与要求一致,是否全面,检查字段类型,字段值的最大值,最小值,平均数,中位数等
b.数据清理
针对a中发现的明显错误值、缺失值、异常值、可疑数据、重复数据等选用适当的方法进行“清理”,使“脏”数据变为“干净”数据。
c.数据转换
d.数据验证
初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。利用简单的线性模型及散点图、直方图、折线图、
等图形进行探索性分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中。
1.2.4 数据分析
指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为目标提供决策参考
分析方法:方差、回归、因子、聚类、分类、时间序列等(原理,使用范围,结果的解释)
1.2.5 数据展现
饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等
1.2.6 报告撰写
明确的结论、建议和解决方案
1.3 数据分析方法简介
1.3.1 统计分析方法简介1.3.1.1 描述性统计分析(Description Statistics)通过图表或数学的方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。c. 相关分析1.3.1.2 回归分析(Regression)确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,它主要研究一个随机变量Y对另一个随机变量(X)或一组(X1,X2, X3...XK)变量的相依关系1.3.1.3 对应分析 (Correspondence Analysis)“关联分析”,“R-Q型因子分析”,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一个变量的各个类别之 间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思路是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。1.3.1.4 因子分析(Factor Analysis)研究从变量群中提取共性因子的统计技术。从大量的数据中寻找内在的联系,减轻决策困难的分析方法。“变异数分析”、“F检验”。用于两个及以上样本均数差别的显著性检验。从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。1.3.2 数据挖掘方法简介1.3.2.1 聚类分析(Cluster Analysis)将物理或抽象对象集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇之间的对象有很大的相异性。1.3.2.2 分类数据分析1.3.2.2.1 决策树(Decision Tree)优点:可以生成可理解的规则;计算量相对来说不是很大;可以处理连续和离散字段;可以清晰的显示出哪些字段比较重要。缺点:对连续性的字段比较难预测;当类别太多时,错误可能会增加得比较快;一般的算法分类的时候,仅根据一个属性来进行分类;不是全局最优。1.3.2.2.2 人工神经网络(Artificial Neural Networks(ANNs))是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型,它是数据挖掘中机器学习的典型代表。是由人工建立的以有向图为拓扑结构的动态系统,通过对连续或断续的输入作状态响应而进行信息处理。特点:可以充分逼近任意复杂的非线性关系;所有定量或定性的信息都等势分布存于网络内的各神经元中。故有很强的鲁棒性和容错性;采用分布处理方法,使得快速进行大量运算成为可能;可以学习和自适应不知道或不确定的系统;能够处理定量,定性的知识。1.3.2.2.3 贝叶斯分类(Bayesian Classification)主要用来预测类成员间的可能性。是基于贝叶斯定律。1.3.2.2.4 支持向量机(Support Vector Machine)与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升。支持向量机以结构风险最小为原则。1.3.2.2.5 随机森林(Random Forest(RF))是一种组合分类器,它利用bootstrap重抽样方法从原始样本中抽取多个样本,对每个bootstrap样本进行决策树建模,然后将这些决策树组合在一起,通过投票得出最终分类或预测的结果。大量的理论和实证研究都证明了随机森林算法具有较高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现拟合。1.3.2.3 关联规则(Association Rule)主要目的是找出数据集中的频繁模式(Frequent Pattern),既多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)1.3.2.4 回归分析(Regression)更多使用的是逻辑斯蒂回归(Logistic Regression)它包括响应预测、分类规划。在用来估算多元线性方程中自变量系数的方法中,最常用用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。1.3.3 统计分析与数据挖掘的区别和联系1.3.3.1 统计分析与数据挖掘的联系的抽样估计需应用该理论,而在数据挖掘技术的朴素贝叶斯分类中,就是这些统计理论的发展和延伸。1.3.3.2 统计分析与数据挖掘的区别
No 统计分析 数据挖掘 1 分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性; 分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。相对与海量,杂乱的数据,数据挖掘技术有明显的应用优势。 2 在预测中的应用常表现为一个或一组函数关系式 在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式。 3 分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立 不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。更灵活,更宽广的思路和应用。
感谢您的支持与关注!