随笔分类 -  机器学习

1
摘要:本文主要讨论隐马尔科夫模型的三大要素,三大假设和三大问题。1、引入 隐马尔可夫模型是一个关于时序的概率模型,它描述了一个由隐藏的马尔可夫链生成状态序列,再由状态序列生成观测序列的过程。其中,状态之间的转换以及观测序列和状态序列之间都存在一定的概率关系。隐马尔可夫模型主要用来对上述过程进行建模。为了... 阅读全文
posted @ 2015-08-15 17:22 liuwu265 阅读(15395) 评论(0) 推荐(0) 编辑
摘要:LDA, Linear Discriminant Analysis,线性判别分析。注意与LDA(Latent Dirichlet Allocation,主题生成模型)的区别。1、引入 上文介绍的PCA方法对提取样本数据的主要变化信息非常有效,而忽略了次要变化的信息。在有些情况下,次要信息可能正是把... 阅读全文
posted @ 2015-08-12 16:29 liuwu265 阅读(10561) 评论(1) 推荐(4) 编辑
摘要:PCA: Principal Components Analysis,主成分分析。1、引入 在对任何训练集进行分类和回归处理之前,我们首先都需要提取原始数据的特征,然后将提取出的特征数据输入到相应的模型中。但是当原始数据的维数特别高时,这时我们需要先对数据进行降维处理,然后将降维后的数据输入到模型... 阅读全文
posted @ 2015-07-31 20:56 liuwu265 阅读(13175) 评论(3) 推荐(1) 编辑
摘要:针对牛顿法中海塞矩阵的计算问题,拟牛顿法主要是使用一个海塞矩阵的近似矩阵来代替原来的还塞矩阵,通过这种方式来减少运算的复杂度。其主要过程是先推导出海塞矩阵需要满足的条件,即拟牛顿条件(也可以称为拟牛顿方程)。然后我们构造一个满足拟牛顿条件的近似矩阵来代替原来的海塞矩阵。 另外,在满足拟牛顿条件... 阅读全文
posted @ 2015-07-27 17:17 liuwu265 阅读(13894) 评论(0) 推荐(0) 编辑
摘要:牛顿法法主要是为了解决非线性优化问题,其收敛速度比梯度下降速度更快。其需要解决的问题可以描述为:对于目标函数f(x),在无约束条件的情况下求它的最小值。其中x=(x1,x2,..,xn)是n维空间的向量。我们在下面需要用到的泰勒公式先在这写出来。牛顿法的主要思想是:在现有的极小值估计值的附近对f(x... 阅读全文
posted @ 2015-07-26 21:49 liuwu265 阅读(10799) 评论(1) 推荐(1) 编辑
摘要:1、似然函数 概率和似然的区别:概率是已知参数的条件下预测未知事情发生的概率,而似然性是已知事情发生的前提下估计模型的参数。我们通常都是将似然函数取最大值时的参数作为模型的参数。 那么为何要取似然函数取最大值的参数作为模型的参数?我们基于这样的假设:对于已经发生的事情,在同样条件下再次发生的概率... 阅读全文
posted @ 2015-07-23 22:58 liuwu265 阅读(5877) 评论(4) 推荐(3) 编辑
摘要:本文主要分两个部分进行讨论,首先介绍最简单的线性回归模型;接着对逻辑回归进行分析1、线性回归-->最小二乘法对于线性回归问题,我们根据自变量的个数将其分为一元线性回归和多元线性回归,本部分先详细介绍一元线性模型,然后将其推广到多元线性模型1)一元线性模型当输入只有一个自变量时,我们称之为一元线性模型... 阅读全文
posted @ 2015-07-21 20:40 liuwu265 阅读(5136) 评论(0) 推荐(1) 编辑
摘要:卷积神经网络中的权值更新也是使用误差的反向传播算法。损失函数一般使用最小平方误差函数。由于卷积网络中存在两部分区域:卷积区和全连接区,它们在计算损失时有所不同我们将其分开进行讨论。1、全连接网络的权值更新 这一部分与经典的人工神经网络不同之处在于多了一个偏置值。我们主要对多出的这个偏置值的更新... 阅读全文
posted @ 2015-07-20 19:32 liuwu265 阅读(6242) 评论(1) 推荐(1) 编辑
摘要:由于在看这类文章时专业名词较多,所以在正式开始前,我先介绍一些同义专业名词,各名词具体含义以及之间的关系在文中介绍。卷积层 = C层采样层 = 池化层(pooling层),S层平面 = 特征图(feature map),通道,map卷积核 = 权向量,滤波器神经元 = 特征,结点,单元,像素点,pa... 阅读全文
posted @ 2015-07-19 21:17 liuwu265 阅读(10301) 评论(2) 推荐(0) 编辑
摘要:首先什么是人工神经网络?简单来说就是将单个感知器作为一个神经网络节点,然后用此类节点组成一个层次网络结构,我们称此网络即为人工神经网络(本人自己的理解)。当网络的层次大于等于3层(输入层+隐藏层(大于等于1)+输出层)时,我们称之为多层人工神经网络。1、神经单元的选择 那么我们应该使用什么样的... 阅读全文
posted @ 2015-07-12 18:00 liuwu265 阅读(100138) 评论(2) 推荐(1) 编辑
摘要:感知器作为人工神经网络中最基本的单元,有多个输入和一个输出组成。虽然我们的目的是学习很多神经单元互连的网络,但是我们还是需要先对单个的神经单元进行研究。感知器算法的主要流程: 首先得到n个输入,再将每个输入值加权,然后判断感知器输入的加权和最否达到某一阀值v,若达到,则通过sign函数输出1,否则... 阅读全文
posted @ 2015-07-10 21:52 liuwu265 阅读(16804) 评论(1) 推荐(2) 编辑
摘要:1、优化模型的两种策略:1)基于残差的方法 残差其实就是真实值和预测值之间的差值,在学习的过程中,首先学习一颗回归树,然后将“真实值-预测值”得到残差,再把残差作为一个学习目标,学习下一棵回归树,依次类推,直到残差小于某个接近0的阀值或回归树数目达到某一阀值。其核心思想是每轮通过拟合残差来降低损失... 阅读全文
posted @ 2015-07-09 19:44 liuwu265 阅读(13819) 评论(1) 推荐(0) 编辑
摘要:提升树是以决策树为基分类器的提升方法,通常使用CART树。针对不同问题的提升树学习算法,主要区别在于使用的损失函数不同。1)分类问题:指数损失函数。可以使用CART分类树作为AdaBoost的基分类器,此时为分类提升树。2)回归问题:平方误差损失函数。3)决策问题:一般损失函数。1、提升树算法提升树... 阅读全文
posted @ 2015-07-06 20:45 liuwu265 阅读(8828) 评论(0) 推荐(1) 编辑
摘要:AdaBoost(Adaptive Boosting):自适应提升方法。1、AdaBoost算法介绍AdaBoost是Boosting方法中最优代表性的提升算法。该方法通过在每轮降低分对样例的权重,增加分错样例的权重,使得分类器在迭代过程中逐步改进,最终将所有分类器线性组合得到最终分类器,Boost... 阅读全文
posted @ 2015-07-05 15:46 liuwu265 阅读(19275) 评论(0) 推荐(1) 编辑
摘要:简单来说,随机森林就是Bagging+决策树的组合(此处一般使用CART树)。即由很多独立的决策树组成的一个森林,因为每棵树之间相互独立,故而在最终模型组合时,每棵树的权重相等,即通过投票的方式决定最终的分类结果。随机森林算法主要过程:1、样本集的选择。 假设原始样本集总共有N个样例,则每轮从原始... 阅读全文
posted @ 2015-07-03 21:41 liuwu265 阅读(13761) 评论(0) 推荐(0) 编辑
摘要:Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1、Bagging (... 阅读全文
posted @ 2015-06-30 20:22 liuwu265 阅读(70114) 评论(4) 推荐(14) 编辑
摘要:CART:Classification and regression tree,分类与回归树。(是二叉树)CART是决策树的一种,主要由特征选择,树的生成和剪枝三部分组成。它主要用来处理分类和回归问题,下面对分别对其进行介绍。1、回归树:使用平方误差最小准则训练集为:D={(x1,y1), (x2,... 阅读全文
posted @ 2015-06-18 19:18 liuwu265 阅读(14802) 评论(0) 推荐(1) 编辑
摘要:1、熵及信息增益本节介绍:熵,条件熵,信息增益,信息增益比的概念。1)熵:表示随机变量不确定性的程度。假设随机变量X的概率P(X=xi)=pi,(i=1,2,…,n),则该随机变量的熵为:若pi=0,则0log0=0。熵只依赖X的分布,而与X的取值无关。故而X的熵H(X),写成H(p)更准确。熵越大... 阅读全文
posted @ 2015-06-07 19:18 liuwu265 阅读(1134) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯算法主要用来解决分类问题,比如通常的二分类,多分类。1、数学知识:贝叶斯定理:特征条件独立:1、朴素贝叶斯输入空间:输出空间:y={C1,C2,…,CK}。训练集:T={(x1,y1),(x2,y2),…,(xN,yN)}。对于每个实例,其P(X,Y)独立同分布。在进行分类之前,需要先将计... 阅读全文
posted @ 2015-06-02 11:03 liuwu265 阅读(9778) 评论(0) 推荐(1) 编辑
摘要:TF-IDF:Term Frequency-Inverse Document Frequency(词频-逆文档频度):主要用来估计一个词在一个文档中的重要程度。符号说明:文档集:D={d1,d2,d3,..,dn}nw,d:词w在文档d中出现的次数{wd}:文档d中的所有词的集合nw:包含词w的文档... 阅读全文
posted @ 2015-05-28 21:38 liuwu265 阅读(838) 评论(0) 推荐(0) 编辑

1