随笔分类 - 机器学习算法
摘要:一、GBDT简介 全称:Gradient Boosting Decison Tree 别名:GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART
阅读全文
摘要:一、简介 RF = Bagging + Decision Tree 随机:数据采样随机,特征选择随机 森林:多个决策树并行放在一起 几个误区: 不是每棵树随机选择特征,而是每一个结点都随机选择固定数目的特征 采样。样本数量为N,采样数量也为N,但是采取的是有放回的采样(bootstrap)。 组合算
阅读全文
摘要:总览 算法 功能 树结构 特征选择 连续值处理 缺失值处理 剪枝 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 C4.5 分类 多叉树 信息增益比 支持 支持 支持 CART 分类/回归 二叉树 基尼系数,均方差 支持 支持 支持 论文链接: ID3:https://link.spring
阅读全文
摘要:一. 谱聚类概述 1、谱聚类 谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽
阅读全文
摘要:一、背景介绍 玻尔兹曼机 = 马尔科夫随机场 + 隐结点 二、RBM的Representation BM存在问题:inference 精确:untractable; 近似:计算量太大 因此为了使计算简便,引入了RBM,RBM假设h,v之间有连结,h,v内部无连结 从NB(朴素贝叶斯)推导到RBM的过
阅读全文
摘要:一、高斯(分布)过程(随机过程)是什么? 一维高斯分布 多维高斯分布 无限维高斯分布 高斯网络 高斯过程 简单的说,就是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的。 举个例子:倘若你人生的每一个时刻看做一个随机变量,且都是满足高斯分布,
阅读全文
摘要:本文顺序 一、回忆线性回归 线性回归用最小二乘法,转换为极大似然估计求解参数W,但这很容易导致过拟合,由此引入了带正则化的最小二乘法(可证明等价于最大后验概率) 二、什么是贝叶斯回归? 基于上面的讨论,这里就可以引出本文的核心内容:贝叶斯线性回归。 贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟
阅读全文
摘要:一、高斯网络(高斯图模型)总体介绍 概率图模型分为三种:贝叶斯网络,马尔科夫随机场以及高斯网络;而高斯网络又可以根据有向无向细分为高斯贝叶斯网络和高斯马尔科夫随机场 二、高斯贝叶斯网络 1、高斯贝叶斯网络是有向图,x服从高斯分布,y|x服从高斯分布 高斯贝叶斯网络(global model)是基于线
阅读全文
摘要:一、CRF的由来HMM->MEMM->CRF 二、HMM到MEMM MEMM打破了HMM的观测条件独立假设 三、MEMM到CRF CRF克服了MEMM的label bias problem问题 参考文献: 【1】【中文分词】条件随机场CRF 【2】【NLP】基于自然语言处理角度谈谈CRF(二)
阅读全文
摘要:一、背景 与卡曼滤波不同的是,粒子滤波假设隐变量之间(隐变量与观测变量之间)是非线性的,并且不满足高斯分布,可以是任意的关系。 求解的还是和卡曼滤波一样,但由于分布不明确,所以需要用采样的方法求解。 二、重要性采样(importance sampling & SIS) 重要性采样(IS)需要计算p(
阅读全文
摘要:一、背景 动态模型 = 图 + 时间 动态模型有三种:HMM、线性动态系统(kalman filter)、particle filter 线性动态系统与HMM的区别是假设相邻隐变量之间满足线性高斯分布,观测变量与隐变量之间满足线性高斯分布 二、线性动态系统两大问题:learning+inferenc
阅读全文
摘要:隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆 韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。 现实世界中有一类问题具有明显的时序性,比如路口红绿灯、连续几天的天气变化,我们说
阅读全文
摘要:作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础。比如分解机(Factorization Machines)推荐算法,还有前面讲到的受限玻尔兹曼机(RBM)
阅读全文
摘要:一、背景(为什么要有变分推断?) 简单来说便是需要根据已有数据推断需要的分布P;当P不容易表达,不能直接求解时,可以尝试用变分推断的方法。即,寻找容易表达和求解的分布Q,当Q和P的差距很小的时候,Q就可以作为P的近似分布代替P。 二、公式推导 三、总结 变分推断是利用已知分布通过调整使其符合我们需要
阅读全文
摘要:一、什么是高斯混合模型? 高斯混合模型(Gaussian Mixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况(或者是同一类分布,但参数不同,或者是不同类型的分布,比如正态分布和伯努利分布)。 上图中的点
阅读全文
摘要:目录 "EM算法的适用场景:" "EM算法的入门简单例子:" EM算法的适用场景: EM算法用于估计含有隐变量的概率模型参数的极大似然估计,或者极大后验概率估计。 当概率模型既含有观测值,又含有隐变量或潜在变量时,就可以使用EM算法来求解概率模型的参数。 当概率模型只含有观测值时,直接使用极大似然估
阅读全文
摘要:一、概率图分为三类:表示、推断、学习 二、贝叶斯网络 Representation 条件独立性 三、贝叶斯网络 Representation D-speration 四、贝叶斯网络 Representation 具体模型例子 五、马尔可夫随机场 Representation 条件独立性 六、马尔可夫
阅读全文
摘要:一、背景 指数族分布有:高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等 指数族分布有6大性质: 充分统计量 共轭 最大熵 广义线性模型 概率图模型 变分推断 指数族分布的标准形式: 二、高斯分布的指数族形式 三、对数配分函数与充分统计量的关系 四、极
阅读全文
摘要:一、背景介绍 二、正定核的两个定义 定义1与定义2的等价性 三、正定核充要条件-必要性证明
阅读全文
摘要:一、预备知识 减少过拟合的方法有:(1)增加数据 (2)正则化(3)降维 维度灾难:从几何角度看会导致数据的稀疏性 举例1:正方形中有一个内切圆,当维度D趋近于无穷大时,圆内的数据几乎为0,所有的数据集中于球外(空壳) 举例2:圆内有个内圆,当维度D趋近于无穷大时,环形内的数据与外圆的数据比为1,说
阅读全文