12 2018 档案
摘要:Pearson's r,称为皮尔逊相关系数(Pearson correlation coefficient),用来反映两个随机变量之间的线性相关程度。 用于总体(population)时记作ρ (rho)(population correlation coefficient): 给定两个随机变量X,
阅读全文
摘要:统计学上用方差和标准差来度量数据的离散程度 ,但是方差和标准差是用来描述一维数据的(或者说是多维数据的一个维度),现实生活中我们常常会碰到多维数据,因此人们发明了协方差(covariance),用来度量两个随机变量之间的关系。 我们仿照方差的公式来定义协方差:(这里指样本方差和样本协方差) 方差:
阅读全文
摘要:《Python for Data Analysis》一书由Wes Mckinney所著,中文译名是《利用Python进行数据分析》。这里记录一下学习过程,其中有些方法和书中不同,是按自己比较熟悉的方式实现的。 第四个实例:USDA Food Database 简介:美国农业部(USDA)制作了一份有
阅读全文
摘要:线性回归是机器学习中最基础的算法,掌握了线性回归算法,有利于以后更容易地理解其它复杂的算法。 线性回归看似简单,但是其中包含了线性代数,微积分,概率等诸多方面的知识。让我们先从最简单的形式开始。 一元线性回归(Simple Linear Regression): 假设只有一个自变量x(indepen
阅读全文
摘要:《Python for Data Analysis》一书由Wes Mckinney所著,中文译名是《利用Python进行数据分析》。这里记录一下学习过程,其中有些方法和书中不同,是按自己比较熟悉的方式实现的。 第三个实例:US Baby Names 1880-2010 简介: 美国社会保障总署(SS
阅读全文