duanchw37

2012年8月24日

摘要：在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8. 汉明距离9. 杰卡德距离 & 杰卡德相似系数10. 相关系数 & 相关距离11. 信息熵1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法，源阅读全文

posted @ 2012-08-24 12:53 duanchw37 阅读(2097) 评论(0) 推荐(0) 编辑

2012年8月15日

判别模型与生成模型

摘要：【摘要】 - 生成模型：无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型：有限样本==》判别函数 = 预测模型==》预测【简介】简单的说，假设o是观察值，q是模型。如果对P(o|q)建模，就是Generative模型。其基本思想是首先建立样本的概率密度模型，再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和bayes理论的基础之上。如果对条件概率(后验概率) P(q|o)建模，就是Discrminative模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。代表性理论为统计学习理论。这两种方法目前交叉较多。【判阅读全文

posted @ 2012-08-15 11:58 duanchw37 阅读(155) 评论(0) 推荐(0) 编辑

2012年8月14日

EM算法

摘要： EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是向量时，如果其hessian矩阵H是半正定的（），那么f是凸函数。如果或者，那么称f是严格凸函数。 Jensen不等式表述如下：如果f是凸函数，X是随机变量，那么特别地，如果f是严格凸函数，那么当且仅当，也就是说X是常量。这里. 阅读全文

posted @ 2012-08-14 10:28 duanchw37 阅读(215) 评论(0) 推荐(0) 编辑

K-means聚类算法

摘要： K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。在. 阅读全文

posted @ 2012-08-14 09:44 duanchw37 阅读(198) 评论(0) 推荐(0) 编辑

2012年5月9日

张飞的流水帐日记【分享】

摘要：很多网友说,看完这篇文章受益匪浅.有网友说:我要把你的文章整理打印出来,多让几个人看看！也有网友说:看过一遍会开心，看过两遍会难过，看过三遍会安静.还有细心的网友说:很好笑...但也有文学常识错误,比如:蜀道难,难于上青天.这句诗是唐代李白写的,张飞生于东汉末年我想说:刚开始看很开心,看到中间会忧伤,看到最后会释怀.能好好的健康的活着就该知足了.他用平静的文字表达了强烈的感情,他将人生的喜怒哀乐赋予轻松的幽默,他将历史写活了,将张飞写活了.我希望路过的朋友都看看,认识的不认识的,我想里面的很多的观点大家都会认同的.第5回第10回第15回第20回第25回第30回第35回第40回第45回第50回（阅读全文

posted @ 2012-05-09 12:31 duanchw37 阅读(1441) 评论(0) 推荐(1) 编辑

数学机器学习图像处理

公告

duanchw37

数学 机器学习 图像处理

公告

数学机器学习图像处理