摘要: 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源 阅读全文
posted @ 2012-08-24 12:53 duanchw37 阅读(2097) 评论(0) 推荐(0) 编辑
摘要: 【摘要】 - 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型:有限样本==》判别函数 = 预测模型==》预测【简介】简单的说,假设o是观察值,q是模型。如果对P(o|q)建模,就是Generative模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和bayes理论的基础之上。如果对条件概率(后验概率) P(q|o)建模,就是Discrminative模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。这两种方法目前交叉较多。【判 阅读全文
posted @ 2012-08-15 11:58 duanchw37 阅读(155) 评论(0) 推荐(0) 编辑
摘要: EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。 Jensen不等式表述如下: 如果f是凸函数,X是随机变量,那么 特别地,如果f是严格凸函数,那么当且仅当,也就是说X是常量。 这里. 阅读全文
posted @ 2012-08-14 10:28 duanchw37 阅读(215) 评论(0) 推荐(0) 编辑
摘要: K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如上面的星星,聚类后结果是一个个星团,星团里面的点相互距离比较近,星团间的星星距离就比较远了。 在. 阅读全文
posted @ 2012-08-14 09:44 duanchw37 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 很多网友说,看完这篇文章受益匪浅.有网友说:我要把你的文章整理打印出来,多让几个人看看!也有网友说:看过一遍会开心,看过两遍会难过,看过三遍会安静.还有细心的网友说:很好笑...但也有文学常识错误,比如:蜀道难,难于上青天.这句诗是唐代李白写的,张飞生于东汉末年我想说:刚开始看很开心,看到中间会忧伤,看到最后会释怀.能好好的健康的活着就该知足了.他用平静的文字表达了强烈的感情,他将人生的喜怒哀乐赋予轻松的幽默,他将历史写活了,将张飞写活了.我希望路过的朋友都看看,认识的不认识的,我想里面的很多的观点大家都会认同的.第5回第10回第15回第20回第25回第30回第35回第40回第45回第50回( 阅读全文
posted @ 2012-05-09 12:31 duanchw37 阅读(1441) 评论(0) 推荐(1) 编辑