切比雪夫大数定理
所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内
协方差和相关系数的关系与区别
协方差:
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
注意:
只表示线性相关的方向,取值正无穷到负无穷。
协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。
协方差大小,会受X,Y数据大小的影响,所以只能通过协方差的正负,来判断是正相关还是负相关,不能反映相关性的程度,所以相关系数就此诞生。
相关系数:
公式翻译一下,就是XY的协方差除X的标准差和Y的标准差
所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。是用来研究变量之间线性相关程度的量,取值范围是[-1,1]。