2015 年 9月 17 日随笔档案 - 刺猬的温驯

主题模型之概率潜在语义分析（Probabilistic Latent Semantic Analysis）

摘要：上一篇总结了潜在语义分析（Latent Semantic Analysis, LSA），LSA主要使用了线性代数中奇异值分解的方法，但是并没有严格的概率推导，由于文本文档的维度往往很高，如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高，使用概率推导可以使用一些优化迭代算法来求解。Thomas H... 阅读全文

posted @ 2015-09-17 08:56 刺猬的温驯阅读(2945) 评论(0) 推荐(0)

主题模型之潜在语义分析（Latent Semantic Analysis）

摘要：主题模型（Topic Models）是一套试图在大量文档中发现潜在主题结构的机器学习模型，主题模型通过分析文本中的词来发现文档中的主题、主题之间的联系方式和主题的发展。通过主题模型可以使我们组织和总结无法人工标注的海量电子文档。较早的主题模型有混合语言模型（Mixture of Unigram），潜... 阅读全文

posted @ 2015-09-17 08:54 刺猬的温驯阅读(1098) 评论(0) 推荐(0)

机器学习中的相似性度量

摘要：在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. ... 阅读全文

posted @ 2015-09-17 07:06 刺猬的温驯阅读(222) 评论(0) 推荐(0)

漫谈：机器学习中距离和相似性度量方法

摘要：在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满... 阅读全文

posted @ 2015-09-17 06:53 刺猬的温驯阅读(224) 评论(0) 推荐(0)

大数定律与抽样陷阱

摘要：《黑天鹅》中多次提到大数定律可能会愚弄我们，作为数理统计和概率论中两个经典的理论（中心极限定理和大数定律）之一，为什么遇到黑天鹅事件时就会失效？或者说大数定律在遇到任何的小概率事件时都有可能“失效”，需要谨慎地认识，以防掉入应用中的陷阱。大数定律大数定律（Law of Large Numbers... 阅读全文

posted @ 2015-09-17 05:27 刺猬的温驯阅读(1294) 评论(0) 推荐(0)

K Nearest Neighbor 算法

摘要： K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是，K-Means算法用来聚类，用来判断哪些东西是一个比较相近的类型，而KNN算法是... 阅读全文

posted @ 2015-09-17 05:05 刺猬的温驯阅读(509) 评论(0) 推荐(0)

K-Means 算法

摘要：最近在学习一些数据挖掘的算法，看到了这个算法，也许这个算法对你来说很简单，但对我来说，我是一个初学者，我在网上翻看了很多资料，发现中文社区没有把这个问题讲得很全面很清楚的文章，所以，把我的学习笔记记录下来，分享给大家。在数据挖掘中，k-Means 算法是一种cluster analysis的算法，其... 阅读全文

posted @ 2015-09-17 04:46 刺猬的温驯阅读(226) 评论(0) 推荐(0)

《女士品茶》与统计检验

摘要：在2008年参加国家统计局举办的建模大赛期间，书店书架上的《女士品茶（The Lady Tasting Tea）――20世纪统计怎样变革了科学》引起了我们的关注，《女士品茶》书名一改以往统计类书籍的枯燥和灰暗，新意盎然。匆匆翻过后，便买下了。《女士品茶》并不是一本女性读物，也不是一本专门讲茶的读物，... 阅读全文

posted @ 2015-09-17 03:13 刺猬的温驯阅读(2825) 评论(0) 推荐(0)

K近邻算法

摘要： 1.1、什么是K近邻算法何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。为何要找邻居？打个比方来说，假设你来到一个陌生的村庄，现在你要找到与你有着... 阅读全文

posted @ 2015-09-17 03:12 刺猬的温驯阅读(644) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣