摘要:
一、创建ssh key通过SSH key绑定本地主机和GitHub,首先在本地产生一个SSH Key,并将key加入到GitHub帐户的公共Key中。创建key命令如下:ssh-keygen -t rsa -C "email" , 出现提示一路回车就可以了。二、将Key 添加到GitHub首先安装xclip,sudo apt-get install xclip然后复制id_rsa.pub的内容xclip - sel clip < /home/user_name/.ssh/id_rsa.pub然后到GitHub页面,找到Account Settings,点击左边的“SS 阅读全文
摘要:
高斯过程是定义在y上的高斯分布。高斯过程与核函数紧密相连,定义在y上的高斯分布正是通过核函数表示出来的。与线性回归相比,高斯过程没有建立y和x的直接关系,而是通过核函数的方式直接建立y之间的关系。在线性回归模型中,我们假设某个y的取值服从一个高斯分布,即y的均值是参数w的一个线性关系,和之间的关系通过w的协方差表现出来。如果给定一个先验,那么可以计算出y的协方差矩阵,如下:(1)注意到上面的矩阵是一个N×M的设计矩阵,矩阵的每一行表示训练集中的一个特征向量,令,是一个N×N的矩阵,K矩阵的第m行第n列的元素是表示一个核函数。因此y的协方差矩阵可以通过核函数表示出来。那么什么 阅读全文
摘要:
朴素贝叶斯分类器是基于条件独立性提出的一种分类方法。现实中存在这样一类问题,特征的个数远大于训练集的个数或者与训练集个数相当,因此容易出现过拟合现象。如在文档分类问题,我们的目标对是一篇文档进行分类,可以把文档的每个词看做文档的一个特征,这样每篇文档就会有大量的特征出现,如果训练样本不够大,就会过拟合。朴素贝叶斯提出一种简单的处理方法,即认为在给定文档分类标号的情况下,词的出现是相互独立的,假设一文档被标记为机器学习,那么“分类”和“回归”被认为是相互独立的。虽然这样的假设看上去并不是很合理,但是在现实中的效果很好,因为它不是完全假设任意两个词的出现都是独立的,独立的前提条件是文档的类别已知, 阅读全文
摘要:
过拟合是机器学习中常见的问题之一,指的是一个模型由于过度复杂造成在训练集中表现良好而在测试集中表现很差的现象,通常是由于参数过多导致数据相对变小造成的。这是因为在采用极大似然估计的方式进行参数的点估计的时候,复杂的模型总是拟合出更好的结果。但是由于模型过于复杂,它的泛化能力并不一定好。频率派通常采用加一个正规项和交叉验证的方式处理过拟合问题。与此相对的贝叶斯学派用贝叶斯的方法给出一种自然的方法进行模型选择, 找到一个复杂度适中的模型,同时避免了过拟合和欠拟合问题,不需要预先留出一部分数据进行验证。这里我们所说的模型是指给定数据集的概率分布,用M表示。一个模型的参数越多认为越复杂,模型比较指从不 阅读全文
摘要:
广义线性模型是经典线性模型的推广,因此要了解广义线性模型,我们先看一下经典线形模型。给定一个预测值y,经典线性模型假设y是由两部分组成,一部分是随机成分,另一部分是确定成分。对于随机成分而言,假设y是随机变量Y的观测值,并且Y的均值是。对于确定成分而言,我们假设服从如下关系: x是输入变量,w是相应的参数 对于随机的部分,我们通常会假设随机变量的误差是独立且方差恒定,例如会假设误差服从高斯分布。一个完整的经典线性模型如下: 那么如何对该模型进行推广呢?仔细观察会发现,该模型中假设随机部分的均值是,对于高斯分布,这样假设是没有问题的,可以是任意实数,对于一般线性拟合这样的假设也是合理的。但是对于 阅读全文
摘要:
先介绍向量的两种运算,一个行向量乘以一个列向量称作向量的内积,又叫作点积,结果是一个数;一个列向量乘以一个行向量称作向量的外积,外积是一种特殊的克罗内克积,结果是一个矩阵,假设和b分别是一个行向量和一个列向量,那么内积、外积分别记作和,,为了讨论方便,假设每个向量的长度为2。注意:外积在不同的地方定义方式不太一样,这里不详细讨论定义了内积和外积以后,我们讨论矩阵的乘法。矩阵是由向量组成的,因此对矩阵不同角度的抽象,将矩阵乘法转换为向量乘法,可以使我们从不同的角度去理解矩阵的乘法。首先我们可以对于一个矩阵A(假设行和列的大小都是2),我们可以即可以把它看作由两个行向量组成的列向量,,又可以看作是 阅读全文
摘要:
主成分分析(PCA)的主要作用是降低数据的维度,提取其主要特征,因为现实中很多数据都是很稀疏的,通过提取主要特征过滤噪音发现其潜在的规律;核函数表示了两个数据之间的相似性。那么这两者之间存在什么样的关系?直观上理解,PCA和核侧重的是两个相反的方向,下面给出解释。考虑下面的高斯核,,x,y代表了两个数据点,j代表了数据的不同特征,D是特征数此时协方差矩阵为对角矩阵,当不是对角矩阵的时候,可以通过相似变换到一个对角矩阵。由以上可知,如果,那么相应的维度等于0,从而可以忽略掉,因为加上一个0不会改变原来的值,我们更关心方差较小的那些特征。另一方面,从PCA的角度考虑,如果,说明数据在该特征上区分度 阅读全文
摘要:
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值,如下所示:其中x表示输入,y表示输出,D表示训练数据集,是模型参数 该公式称为全贝叶斯预测。现在的问题是如何求(后验概率),根据贝叶斯公式我们有: 可惜的是,上面 阅读全文