信息论-基础知识

摘要: 对于一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生,我们获得信息要多。 所以信息量的多少依赖于概率分布p(x),所以我们可以用关于p(x)的一个函数来... 阅读全文
posted @ 2014-10-19 20:27 souxun 阅读(775) 评论(0) 推荐(0) 编辑

注释:这50个词,在这10月30号之前完成

摘要: 1、多项式分布 2、文本的多项式分布建模3、共轭先验4、概率平滑{Lapace平滑、加1平滑、Dirichlet贝叶斯平滑、2阶段语言模型}5、似然函数6、log似然函数7、期望最大化算法8、条件概率9、贝叶斯全公式10、生成模型11、判别模型12、条件期望13、拉格朗日系数14、VSM,LSI,P... 阅读全文
posted @ 2014-10-19 20:19 souxun 阅读(209) 评论(0) 推荐(0) 编辑

谱聚类(Spectral Clustering, SC)

摘要: 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目 的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Mi... 阅读全文
posted @ 2014-10-19 20:18 souxun 阅读(757) 评论(0) 推荐(0) 编辑

K-means聚类算法

摘要: 转自 JerryLead 的博客 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、... 阅读全文
posted @ 2014-10-19 19:34 souxun 阅读(142) 评论(0) 推荐(0) 编辑