机器学习前置准备：《爱上统计学入门》

一，基本概念

众数出现次数最多的

均值
推论统计，用样本来推论总体，样本是总体的子集

方法：多练习，多找实例

二，平均数
平均数：均值、中位数、众数
加权平均数，一样是总数/个数。如1出现4次，2出现6次，3出现1次。加权平均=1*4+2*6+3=19
中位数对极值不敏感，1 2 3 4 99 中位数是3，但平均数是20多，不能代表这个数组。
中位数代表个体的中心点，平均数代表值的中心
应用场景
见书

三,变异性，也叫离散度、散布
平均数，变异性都是统计里的重要方面，计算每个数值和均值的差异性

数据分布共4方面不同：平均值、变异性、偏度、峰度

极差：最大值-最小值
标准差：每个数与均值的平均距离。N-1是为了使计算的标准差大于实际的，科学家的保守性，不得不出错，出错也是过高估计了标准差。

方差：标准差没开根号前。一般标准差更具有解释意义。

四,统计图表
容易说明问题，好图表的十条原则，见书，以后未提到内容均见书：
1，频数分布
组距的选择：选择包含2,5,10,20个数据点的组距，使得10-20个这样的组距可以覆盖所有数据。
比如有100-400的范围，我们想分10个组，则组距为300/10=30

2，建立直方图，高度代表频数。每个直放代表一组，从小到大排列好。频数多边形。都类似的展示。
累计频数，把频数叠加起来。

图的应用：
柱状图：比较不同分类的频数
线图：表示数据的趋势，如每年入学人数变化，
饼图：占比例分析，不同类别项目的比例分布

五,计算相关系数
描述两个变量之间的限行关系，-1 -> 1
两个变量共享许多特征，才有相关性。比如身高和体重，共享了营养，健康状况，基因等等。
皮尔逊系数来计算公式(用于定距和定距变量的相关性，直接用软件计算)：

散点图，XY代表两个变量。完全相关是不可能的(代表两个变量共享所有变量)，0.7-0.8就是一般统计的最大相关了

关联并不代表因果，如消费冰淇淋和犯罪率相关度高，仅代表共享了一些特征。夏天气温高，因此冰淇淋消费多，气温高，因此开门开窗多，导致犯罪增加

选哪一个公式来计算相关系数？见下表

六,有趣的应用
描t值，两个群体的独立均值t检验 117页图表理解，选检验流程
非独立性t值一个群体使用xx前和xx后的对比

posted @ 2016-05-20 02:15 一名IT老农阅读(840) 评论(0) 收藏举报

刷新页面返回顶部