随笔分类 - 统计学习方法
摘要:1 MCMC蒙特卡罗方法 作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础。下面我们就对MCMC的原理做一个总结。 1.1 MCMC概述 从名字我们可以看出
阅读全文
摘要:https://blog.csdn.net/kevinoop/article/details/80522477
阅读全文
摘要:概率图模型G(V,E)由节点V和边E构成。在之前马尔科夫模型相关的博客中,我谈到马尔科夫模型的本质是当两个人交流后,其意见(两个随机变量)同意0与不同意1的概率组合。而势函数表达的是两个意见相同或者相左的程度。 我们搞的那么麻烦,最后想要得到的不就是每个意见正确与否(随机变量取不同值的概率)吗?与其
阅读全文
摘要:概率图的一个重要作用是进行推理,针对某个随机变量,告诉我们它到底有没有可能,有多大可能发生。之前在representation相关的内容中,我们更多的关心如何利用概率图减少联合分布的计算量。inference相关的章节就是要介绍如何从联合概率中获得单个随机变量的概率。 1.链状变量消除 对于给定的联
阅读全文
摘要:再一次遇到了Markov模型与条件随机场的问题,学而时习之,又有了新的体会。所以我决定从头开始再重新整理一次马尔科夫模型与条件随机场。 马尔科夫模型是一种无向概率图模型,其与马尔科夫链并不是很一样。马尔科夫链的节点是状态,边是转移概率,是template CPD的一种有向状态转移表达。而马尔科夫模型
阅读全文
摘要:CPD是conditional probability distribution的缩写,翻译成中文叫做 条件概率分布。在概率图中,条件概率分布是一个非常重要的概念。因为概率图研究的是随机变量之间的练习,练习就是条件,条件就要求条件概率。 对于简单的条件概率而言,我们可以用一个条件概率表来表达。如图1
阅读全文
摘要:概率图模型(PGM)是一种对现实情况进行描述的模型。其核心是条件概率,本质上是利用先验知识,确立一个随机变量之间的关联约束关系,最终达成方便求取条件概率的目的。 1.从现象出发 这个世界都是随机变量 这个世界都是随机变量。 第一,世界是未知的,是有多种可能性的。 第二,世界上一切都是相互联系的。 第
阅读全文
摘要:EM算法(Expectation-maximization),又称最大期望算法,是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计(或极大后验概率估计) 从定义可知,该算法是用来估计参数的,这里约定参数为 。既然是迭代算法,那么肯定有一个初始值,记为 ,然后再通过算法计算 通常,当模型的变量
阅读全文
摘要:今天观摩别人代码的时候,出现了求无向图最大团。 描述:团就是最大完全子图。(极大团) 给定无向图G=(V,E)。如果U包含于V,且对任意u,v属于U且有(u,v)属于E,则称U是G的完全子图。 G的完全子图U是G的团当且仅当U不包含在G的更大的完全子图中,即U就是最大完全子图。 G的最大团是指G中所
阅读全文
摘要:https://wanghuaishi.wordpress.com/2017/02/21/%E5%9B%BE%E8%A7%A3%E6%9C%80%E5%A4%A7%E7%86%B5%E5%8E%9F%E7%90%86%EF%BC%88the-maximum-entropy-principle%EF%
阅读全文
摘要:核方法 核方法 是一类把低维空间的非线性可分问题,转化为高维空间的线性可分问题的方法。核方法不仅仅用于SVM,还可以用于其他数据为非线性可分的算法。核方法的理论基础是Cover's theorem,指的是对于非线性可分的训练集,可以大概率通过将其非线性映射到一个高维空间来转化成线性可分的训练集。 S
阅读全文
摘要:首先给你两个向量 。在一般的机器学习方法,比如 SVM 里面,这里一个向量是一个实体。比如一个向量代表一个人。每个向量有两个维度,身高和体重。比如可以有 现在要求两个人的相似度,最简单的方法是计算它们的内积 。这很简单,只要按照维度相乘求和就可以了。 但是有的时候(比如 SVM 的数据线性不可分的时
阅读全文
摘要:正规矩阵 矩阵的迹以及行列式 伴随矩阵 矩阵的逆 对角矩阵 矩阵求导
阅读全文
摘要:1.对称矩阵 2.Hermite矩阵 3.正交矩阵 4.酉矩阵
阅读全文
摘要:文章结构如下: 1: 原始问题 2: 对偶问题 3: 原始问题和对偶问题的关系 4: 参考文献 在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转为对偶问题,通过解决对偶问题而得到原始问题的解。 对偶问题有非常良好的性质,以下列举几个: 对偶问题的对偶是原问题
阅读全文
摘要:https://www.cnblogs.com/datahunter/p/3808252.html?utm_source=tuicool&utm_medium=referral 在看机器学习的论文时,经常会看到有作者提到“curse of dimensionality”,中文译为“维数灾难”,这到底
阅读全文
摘要:1 泛化误差 学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质重要的性质。 泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。事实上,泛化误差就是所学习
阅读全文
摘要:正则化与交叉验证用于模型选择 1 正则化 正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty iterm )。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。 正则化一般形式: 正
阅读全文
摘要:1 训练误差 2 测试误差 测试误差小的方法具有更好的预测能力,是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力 3 过拟合 过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对己知数据预测得很好,但对未知数据预测得很差的现象。 4 模型选择 如果在假设空间中存在“真”模型,
阅读全文