随笔分类 -  统计学

摘要:声明:作者:会心一击 出处:http://www.cnblogs.com/lijingchn/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 1. K-NN算法简介 K-NN算法 ( K Nearest Neighbor, K近邻算法 ), 是机器学习中的一个经典算法, 比较简单且容易理解. K-NN... 阅读全文
posted @ 2017-08-23 00:14 殷大侠 阅读(692) 评论(0) 推荐(0) 编辑
摘要:它的历史不知道,如何推导出来的,没管啊,不过我很有兴趣看看啊,但没有看。高斯函数的用处太多了; 首先说明一点哦:正态分布是高斯函数的积分为1的情况; 一维情况下: 一维高斯高斯函数的公式: 而正态分布的公式表示为: 它们的区别仅仅在于前面的系数不一样;正态分布之所以需要这样的系数是为了在区间的积分为 阅读全文
posted @ 2017-07-26 21:07 殷大侠 阅读(2958) 评论(2) 推荐(0) 编辑
摘要:在一个样本中,样本的无偏估计的均值、标准差和方差如下: 对于单个变量,它的协方差可以表示为: 其实它即是方差,所以呢,当只有一个变量时,方差是协方差的一种特殊情况; 举例:有一个变量 X的样本为:0.2, 0.3,0.4,0.3,0.5;求自身的协方差(即方差) 对于两个变量,协方差可以表示为: 它表示了两个变量的相关性;通俗一点说,当X变大时,Y是否会变大 ,如果正相关... 阅读全文
posted @ 2017-06-12 15:35 殷大侠 阅读(10385) 评论(0) 推荐(1) 编辑
摘要:什么是无偏估计?? 估计是用样本统计量(可以理解为随机抽样)来估计总体参数时的一种无偏推断。 无偏估计的要求就是:估计出来的参数的数学期望等于被估计参数的真实值。 所以呢,可以看出:估计值也是一个变量,因为是随机的嘛。 真实值谁也不知道啊(因为你不可能把列出无限的实验结果来,除了可能通过数学计算得到的常见的分布)。 给你一组服从一定分布的随机变量 X , 假设样本的真实的均值与方差可以表示... 阅读全文
posted @ 2017-06-12 10:39 殷大侠 阅读(15037) 评论(1) 推荐(2) 编辑
摘要:(以下内容来自维基百科:) 自信息:由克劳德·香农提出,是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。它的定义为:一个随机产生的事件所包含的自信息数量,只与事件发生的概率相关。事件发生的概率越低,在事件真的发生时,接收到的信息中,包含的自信息越大。此外,根据定义,自信息的量度是正的而 阅读全文
posted @ 2017-02-21 21:39 殷大侠 阅读(10586) 评论(0) 推荐(1) 编辑
摘要:一些公式: 对于随机变量X,它的期望可以表示为EX,下面看看它的方差怎么表示: DX = E(X-EX)2 = E(X2-2XEX +(EX)2) = EX2 - (EX)2 所以当 EX=0时,DX = EX2 当随机变量X与随机变量Y相互独立时,我们有这样的结论: EXY = EX * EY DXY = EX2EY2 –(EX)2(EY)2 D(X+Y) = DX + DY + ... 阅读全文
posted @ 2016-12-30 09:02 殷大侠 阅读(14972) 评论(0) 推荐(1) 编辑
摘要:首先说,这是我写的最烂的,因为我自己有一些也没有弄明白,强烈建议别看,强烈不建议看哦。。(我不暂时不想花太多时间去 搞它,因为我用不着它,如果用到它的时候到好好看看吧,我了解一下原理,一些细节 吧我有一些想不明白) 下面这是我的简单介绍与理解,或者理解的不够深。 这玩意的作用就是用于解决问题的吧,一切算法都要向解决的问题去靠,如果单純停留在数学分析上,很迷迷糊糊的哦。。所以,我们站在一定高度上去看... 阅读全文
posted @ 2016-12-08 09:43 殷大侠 阅读(10802) 评论(1) 推荐(0) 编辑
摘要:K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦。 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? 那我们就用K-means算法进行划分吧。 算法很简单,这么做就可以啦: 第一步:随机初始化每种类别的中心点,u1,u2,u3,……,uk; 第二步:重复以下过程: 然后 ,就没有然后了... 阅读全文
posted @ 2016-12-04 23:19 殷大侠 阅读(14778) 评论(0) 推荐(1) 编辑
摘要:对于高斯混合模型是干什么的呢?它解决什么样的问题呢?它常用在非监督学习中,意思就是我们的训练样本集合只有数据,没有标签。 它用来解决这样的问题:我们有一堆的训练样本,这些样本可以一共分为K类,用z(i)表示。,但是具体样本属于哪类我们并不知道,现在我们需要建立一个模型来描述这个训练样本的分布。这时, 我们就可以用高斯混合模型来进行描述。 怎么入手呢? 高斯混合模型: 我们这么想,因为样本集合潜... 阅读全文
posted @ 2016-12-04 23:06 殷大侠 阅读(1973) 评论(0) 推荐(0) 编辑
摘要:对于常见的分类算法,经常用到的都是判别学习算法,如 logistic二元分类器,还有softmax分类器等。它们都有一个共同的特点,那就是我们直接去求 p(y|x; θ), 有时候也表示为 hθ(x),这类方法的重点是去拟合参数θ。 还有一种算法:生成学习算法。它的中心思想是直接去求p(y|x; θ 阅读全文
posted @ 2016-12-04 21:06 殷大侠 阅读(4088) 评论(0) 推荐(0) 编辑
摘要:首先说明啊:logistic分类器是以Bernoulli(伯努利) 分布为模型建模的,它可以用来分两种类别;而softmax分类器以多项式分布(Multinomial Distribution)为模型建模的,它可以分多种互斥的类别。 补充: 什么是伯努利分布?伯努利分布[2] 是一种离散分布,有两种 阅读全文
posted @ 2016-12-04 17:21 殷大侠 阅读(94467) 评论(5) 推荐(3) 编辑
摘要:什么是朴素贝叶斯分类器? 首先看朴素两个字,啥意思呢??它是英文单词 naive 翻译过来的,意思就是简单的,朴素的。(它哪里简单呢,后面会看到的:它假设一个事件的各个属性之间是相互独立的,这样简化了计算过程;这个假设在现实中不太可能成立,但是呢,研究表明对很多分类结果的准确性影响不大哦。) 称为贝 阅读全文
posted @ 2016-12-01 21:12 殷大侠 阅读(4549) 评论(0) 推荐(0) 编辑
摘要:极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。 直接说,就是在给定样本的输出结果时,我们来估计参数。 它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数theta相关,A发生的概率记为... 阅读全文
posted @ 2016-07-31 23:06 殷大侠 阅读(251) 评论(0) 推荐(1) 编辑
摘要:贝叶斯定理是由英国数学家贝叶斯提出的公式,用于描述两个事件之间的关系: 按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B) 如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A) 按这些术语,Bayes法则可表述为: 后验概率 = (似然 阅读全文
posted @ 2016-07-31 16:55 殷大侠 阅读(417) 评论(0) 推荐(0) 编辑
摘要:标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。用公式表示为: z=(x-μ)/σ。其中x为某一具体分数, μ为平均数,σ为标准差。 Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数, 阅读全文
posted @ 2016-07-21 19:53 殷大侠 阅读(6325) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示