君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2015年9月17日 #

摘要: 上一篇总结了潜在语义分析(Latent Semantic Analysis, LSA),LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高,使用概率推导可以使用一些优化迭代算法来求解。Thomas H... 阅读全文
posted @ 2015-09-17 08:56 刺猬的温驯 阅读(2913) 评论(0) 推荐(0) 编辑

摘要: 主题模型(Topic Models)是一套试图在大量文档中发现潜在主题结构的机器学习模型,主题模型通过分析文本中的词来发现文档中的主题、主题之间的联系方式和主题的发展。通过主题模型可以使我们组织和总结无法人工标注的海量电子文档。较早的主题模型有混合语言模型(Mixture of Unigram),潜... 阅读全文
posted @ 2015-09-17 08:54 刺猬的温驯 阅读(1074) 评论(0) 推荐(0) 编辑

摘要: 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. ... 阅读全文
posted @ 2015-09-17 07:06 刺猬的温驯 阅读(221) 评论(0) 推荐(0) 编辑

摘要: 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满... 阅读全文
posted @ 2015-09-17 06:53 刺猬的温驯 阅读(223) 评论(0) 推荐(0) 编辑

摘要: 《黑天鹅》中多次提到大数定律可能会愚弄我们,作为数理统计和概率论中两个经典的理论(中心极限定理和大数定律)之一,为什么遇到黑天鹅事件时就会失效?或者说大数定律在遇到任何的小概率事件时都有可能“失效”,需要谨慎地认识,以防掉入应用中的陷阱。大数定律 大数定律(Law of Large Numbers... 阅读全文
posted @ 2015-09-17 05:27 刺猬的温驯 阅读(1280) 评论(0) 推荐(0) 编辑

摘要: K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是... 阅读全文
posted @ 2015-09-17 05:05 刺猬的温驯 阅读(501) 评论(0) 推荐(0) 编辑

摘要: 最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。在数据挖掘中,k-Means 算法是一种cluster analysis的算法,其... 阅读全文
posted @ 2015-09-17 04:46 刺猬的温驯 阅读(224) 评论(0) 推荐(0) 编辑

摘要: 在2008年参加国家统计局举办的建模大赛期间,书店书架上的《女士品茶(The Lady Tasting Tea)――20世纪统计怎样变革了科学》引起了我们的关注,《女士品茶》书名一改以往统计类书籍的枯燥和灰暗,新意盎然。匆匆翻过后,便买下了。《女士品茶》并不是一本女性读物,也不是一本专门讲茶的读物,... 阅读全文
posted @ 2015-09-17 03:13 刺猬的温驯 阅读(2770) 评论(0) 推荐(0) 编辑

摘要: 1.1、什么是K近邻算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着... 阅读全文
posted @ 2015-09-17 03:12 刺猬的温驯 阅读(617) 评论(0) 推荐(0) 编辑