kalor - 博客园

朴素贝叶斯的深入理解

摘要：转自：http://my.oschina.net/yuzh/blog/100815什么是贝叶斯分类据维基百科上的介绍，贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。如上所示，其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中，每个名词都有约定俗成的名称：P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。P(A|B)是已知B发生后A的条件概率（直白来讲，就是先有B而后=>才有A），也由于得自B的取值而被称作A的后验概率。P(B|A)是已知A发生后B的条件概率（直白来讲，就是先有A而后=>才有B），阅读全文

posted @ 2013-08-05 17:40 kalor 阅读(1262) 评论(0) 推荐(1) 编辑

隐马尔可夫模型（HMM）

摘要：转自：http://blog.csdn.net/likelet/article/details/7056068隐马尔可夫模型(Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语言识别，自然语言处理以及生物信息等领域体现了很大的价值。平时，经常能接触到涉及HMM的相关文章，一直没有仔细研究过，都是蜻蜓点水，因此，想花一点时间梳理下，加深理解，在此特别感谢 52nlp 对 HMM 的详细介绍。考虑下面交通灯的例子，一个序列可能是红-红/橙-绿-橙-红。这个序列可以画成一个状态机，不同的状态按照这个状态机互相交替，每. 阅读全文

posted @ 2013-08-03 17:43 kalor 阅读(310) 评论(0) 推荐(0) 编辑

Mahout之Navie Bayesian命令端运行

摘要： landen@landen-Lenovo:~/文档/20news$ mahout trainclassifier --helpMAHOUT_LOCAL is not set; adding HADOOP_CONF_DIR to classpath.Running on hadoop, using HADOOP_HOME=/home/landen/UntarFile/hadoop-1.0.4No HADOOP_CONF_DIR set, using /home/landen/UntarFile/hadoop-1.0.4/conf MAHOUT-JOB: /home/landen/UntarFil 阅读全文

posted @ 2013-07-12 20:28 kalor 阅读(656) 评论(0) 推荐(0) 编辑

Mahout之深入navie Bayesian classifier理论

摘要：转自：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个正式的定义。然后，介绍贝叶斯分类算法的基础——贝叶斯定理。最后，通过实例讨论贝叶斯分类中最简单的一种：朴素贝叶斯分类。1.2、分类问题综述对于分类问题，其实谁都不会陌生，说我们每个人每天都在执行分类操作一点都不夸张，只是我们没有意识到罢了。例如，当你看到一个陌生人，你的脑阅读全文

posted @ 2013-07-11 13:47 kalor 阅读(301) 评论(0) 推荐(0) 编辑

Mahout之Canopy Clustering深入理解

摘要：转自：http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.htmlMahout学习——Canopy Clustering 聚类是机器学习里很重要的一类方法，基本原则是将“性质相似”(这里就有相似的标准问题，比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言，有三座大山需要爬过去：（1）、a large number of clusters，(2)、a high feature dimensionality，（3）、a larg 阅读全文

posted @ 2013-07-09 11:10 kalor 阅读(480) 评论(0) 推荐(0) 编辑

Weka中EM算法详解

摘要： 1 private void EM_Init (Instances inst) 2 throws Exception { 3 int i, j, k; 4 5 // 由于EM算法对初始值较敏感，故选择run k means 10 times and choose best solution 6 SimpleKMeans bestK = null; 7 double bestSqE = Double.MAX_VALUE; 8 for (i = 0; i < 10; i++) { 9 SimpleKMeans sk = new Si... 阅读全文

posted @ 2013-07-03 22:17 kalor 阅读(3095) 评论(0) 推荐(0) 编辑

马氏距离的深入理解

摘要：转自：http://www.cnblogs.com/kevinGaoblog/archive/2012/06/19/2555448.html 对于马氏距离，本人研究了一下，虽然看上去公式很简单的，但是其中存在很多模糊的东西，例如有很多教科书以及网络上的简要说明，下面以维基百科作为引用：马氏距离是由印度统计学家马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invarian 阅读全文

posted @ 2013-07-02 20:33 kalor 阅读(38071) 评论(1) 推荐(6) 编辑

Mahalanobis Distance(马氏距离)

摘要： (from:http://en.wikipedia.org/wiki/Mahalanobis_distance)Mahalanobis distanceInstatistics,Mahalanobis distanceis adistancemeasure introduced byP. C. Mahalanobisin 1936.It is based oncorrelationsbetween variables by which different patterns can be identified and analyzed. It gaugessimilarityof an unkn 阅读全文

posted @ 2013-07-02 17:25 kalor 阅读(1941) 评论(0) 推荐(0) 编辑

Weka EM 协方差

摘要： Weka EM covariancedescription 1:Dear All, I am trying to find out what is the real meaning of the minStdDev parameter in the EM clustering algorithm. Can anyone help me? I have not looked at the code, but I suspect that the minStdDev is used as the first estimate of the covariance of a Gaussian in.. 阅读全文

posted @ 2013-06-24 19:18 kalor 阅读(405) 评论(0) 推荐(0) 编辑

数据挖掘、概率分析与决策支持

摘要：所谓数据挖掘，就是通过数据分析，发现其中的规律。沈浩教授列举了彩票的数据分析的案例，指出彩票的大范围的概率均等性以及小范围的概率波动。曾经中央电视台新闻30分采访过他，他指出了所谓的彩票软件是骗人的。如果彩票的规律是可循的，那么显然彩票是没法玩的，知道规律的人也不会说出规律来的。最震撼的是沈浩教授用数据挖掘的原理，讲述了SNS社会关系网络的用户关系和路径分析图。通过用户彼此之间的沟通线条，通过分析软件转化为层级图或密度分布图，就可以发现哪些人是“意见领袖”。在营销中，新产品上市的宣传推广，首先要影响的就是这部分的“意见领袖”，他们是社会信息的重要传播者和影响者。通过数据挖掘... 阅读全文

posted @ 2013-06-24 18:38 kalor 阅读(391) 评论(0) 推荐(0) 编辑

导航

2013年8月5日

2013年8月3日

2013年7月12日

2013年7月11日

2013年7月9日

2013年7月3日

2013年7月2日

2013年6月24日