11 2013 档案
摘要:聚类(clustering)1、ground truth :真实值,以后数据的真实值用这个词语表达2、K-means=EM, 聚类中k均值算法其实就是一个EM算法,其中第二步把数据点归并到相应的中心点为E,根据归并后的数据点进行计算重新产生新的中心点为M,通过不断迭代直到不再改变。K均值也是基于高斯混合模型GMM的k均值的缺点初始时需要指定K值无法产生凹型的类别,例如香蕉月牙型,只能产生类圆的形状对孤立点比较敏感,需要降噪处理3、层次聚类对大规模数据处理是否合适(有待进一步查资料)合适,叶子节点进行合并需要n^2次的计算,以后类间合并时不再需要计算,算法具体运行时间应该以最底层的叶子节点合并的
阅读全文
摘要:对于做实验的童鞋来说,平时看综述必不可少,可是如何获得自己想要的却并不是一件容易的事情,这里整理并推荐几种行之有效的方法:1.http://www.annualreviews.org/,这是一个顶级的杂志群:AnnualReviews——出版社成立于1932年,是一家致力于向全球科学家提供高度概括、实用信息的非赢利性组织,专注于出版综述期刊,回顾本学科最前沿的进展,为科学研究提供方向性指导;期刊内容涵盖生物学、医学、物理学、农学和社会科学等多个学科领域。AnnualReviews系列期刊是引证率最高的出版物。2008年JCR收录的6,500多种期刊中,AnnualReviews系列期刊的影响因
阅读全文
摘要:python matplotlib
阅读全文
摘要:LDA 概率主体模型 blei
阅读全文
摘要:概率图模型 生成模型 判别模型 贝叶斯
阅读全文
摘要:这样写,会出现乱码。原因是文件时gbk格式的,BufferedReader br = new BufferedReader(new FileReader(indir)); BufferedWriter bw = new BufferedWriter(new FileWriter(outpath,true)); 所以可以这样改://用fileinputstream才能解决读写文件乱码问题.视文件是gbk还是utf32而更改下面对应的字符。BufferedReader br = new BufferedReader(new InputStreamReader(new F...
阅读全文
摘要:vsm,熵,tf-idf,余弦,lucene,相似性
阅读全文
摘要:来源:http://hi.baidu.com/vyfrcemnsnbgxyd/item/2f10ecc3fc35597dced4f88bDirichlet Process(DP)是一个很重要的统计模型,其可以看做是Dirichlet分布的一种在连续空间的推广过程。在统计学习中,DP尤其是其变形有很多 重要应用,是非参贝叶斯学习的重要方法。不过目前缺乏对于这样一个模型的入门级的介绍,本文将会介绍如何从Dirichlet分布演变到 Dirichlet Process,从而帮助大家更容易地踏入这个领域。其中也会有很多疏漏,请读者指正。另一篇关于Dirichlet Distribution的博文The
阅读全文
摘要:LDA DP 学习资料
阅读全文
摘要:DP 随机过程 狄利克雷
阅读全文
摘要:LDA
阅读全文
摘要:来自http://www.cnblogs.com/luics/无论是易学难精的js、java,上手稍复杂的c或c++;在计算机诸多语言或/应用领域,基础知识积累到一定程度,再深入就难了。通常可通过看《xyz进阶/深入/思考/权威指南》或一本名字“怪异”的书来进一步提高。很多时候我更愿意去找一个优秀的开源项目,带着这样的目的:1基础知识补余2项目精华部分往往超出入门书籍的范围3代码结构、规范化程度及其他出彩之处如何看呢?一定不要直接看源码。1了解项目背景,如果确认不是你的兴趣所在请找其他项目2跟着文档走一遍,如果项目太大,要选择合适的部分3搜一把,看看别人的源码分析,至少理清框架4开始看源码,先
阅读全文