kalor

导航

 
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 20 下一页

2013年8月5日

摘要: 转自:http://my.oschina.net/yuzh/blog/100815什么是贝叶斯分类 据维基百科上的介绍,贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。 如上所示,其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。P(A|B)是已知B发生后A的条件概率(直白来讲,就是先有B而后=>才有A),也由于得自B的取值而被称作A的后验概率。P(B|A)是已知A发生后B的条件概率(直白来讲,就是先有A而后=>才有B), 阅读全文
posted @ 2013-08-05 17:40 kalor 阅读(1262) 评论(0) 推荐(1) 编辑
 

2013年8月3日

摘要: 转自:http://blog.csdn.net/likelet/article/details/7056068隐马尔可夫模型(Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及HMM的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子,一个序列可能是红-红/橙-绿-橙-红。这个序列可以画成一个状态机,不同的状态按照这个状态机互相交替,每. 阅读全文
posted @ 2013-08-03 17:43 kalor 阅读(310) 评论(0) 推荐(0) 编辑
 

2013年7月12日

摘要: landen@landen-Lenovo:~/文档/20news$ mahout trainclassifier --helpMAHOUT_LOCAL is not set; adding HADOOP_CONF_DIR to classpath.Running on hadoop, using HADOOP_HOME=/home/landen/UntarFile/hadoop-1.0.4No HADOOP_CONF_DIR set, using /home/landen/UntarFile/hadoop-1.0.4/conf MAHOUT-JOB: /home/landen/UntarFil 阅读全文
posted @ 2013-07-12 20:28 kalor 阅读(656) 评论(0) 推荐(0) 编辑
 

2013年7月11日

摘要: 转自:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑 阅读全文
posted @ 2013-07-11 13:47 kalor 阅读(301) 评论(0) 推荐(0) 编辑
 

2013年7月9日

摘要: 转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.htmlMahout学习——Canopy Clustering 聚类是机器学习里很重要的一类方法,基本原则是将“性质相似”(这里就有相似的标准问题,比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中 对象尽可能不相似。对聚类算法而言,有三座大山需要爬过去:(1)、a large number of clusters,(2)、a high feature dimensionality,(3)、a larg 阅读全文
posted @ 2013-07-09 11:10 kalor 阅读(480) 评论(0) 推荐(0) 编辑
 

2013年7月3日

摘要: 1 private void EM_Init (Instances inst) 2 throws Exception { 3 int i, j, k; 4 5 // 由于EM算法对初始值较敏感,故选择run k means 10 times and choose best solution 6 SimpleKMeans bestK = null; 7 double bestSqE = Double.MAX_VALUE; 8 for (i = 0; i < 10; i++) { 9 SimpleKMeans sk = new Si... 阅读全文
posted @ 2013-07-03 22:17 kalor 阅读(3095) 评论(0) 推荐(0) 编辑
 

2013年7月2日

摘要: 转自:http://www.cnblogs.com/kevinGaoblog/archive/2012/06/19/2555448.html 对于马氏距离,本人研究了一下,虽然看上去公式很简单的,但是其中存在很多模糊的东西,例如有很多教科书以及网络上的简要说明,下面以维基百科作为引用:马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invarian 阅读全文
posted @ 2013-07-02 20:33 kalor 阅读(38071) 评论(1) 推荐(6) 编辑
 
摘要: (from:http://en.wikipedia.org/wiki/Mahalanobis_distance)Mahalanobis distanceInstatistics,Mahalanobis distanceis adistancemeasure introduced byP. C. Mahalanobisin 1936.It is based oncorrelationsbetween variables by which different patterns can be identified and analyzed. It gaugessimilarityof an unkn 阅读全文
posted @ 2013-07-02 17:25 kalor 阅读(1941) 评论(0) 推荐(0) 编辑
 

2013年6月24日

摘要: Weka EM covariancedescription 1:Dear All, I am trying to find out what is the real meaning of the minStdDev parameter in the EM clustering algorithm. Can anyone help me? I have not looked at the code, but I suspect that the minStdDev is used as the first estimate of the covariance of a Gaussian in.. 阅读全文
posted @ 2013-06-24 19:18 kalor 阅读(405) 评论(0) 推荐(0) 编辑
 
摘要: 所谓数据挖掘,就是通过数据分析,发现其中的规律。 沈浩教授列举了彩票的数据分析的案例,指出彩票的大范围的概率均等性以及小范围的概率波动。曾经中央电视台新闻30分采访过他,他指出了所谓的彩票软件是骗人的。如果彩票的规律是可循的,那么显然彩票是没法玩的,知道规律的人也不会说出规律来的。 最震撼的是沈浩教授用数据挖掘的原理,讲述了SNS社会关系网络的用户关系和路径分析图。通过用户彼此之间的沟通线条,通过分析软件转化为层级图或密度分布图,就可以发现哪些人是“意见领袖”。在营销中,新产品上市的宣传推广,首先要影响的就是这部分的“意见领袖”,他们是社会信息的重要传播者和影响者。 通过数据挖掘... 阅读全文
posted @ 2013-06-24 18:38 kalor 阅读(391) 评论(0) 推荐(0) 编辑
 
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 20 下一页