君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
上一页 1 2 3 4 5 6 7 8 ··· 106 下一页

2015年11月9日 #

摘要: 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满... 阅读全文
posted @ 2015-11-09 22:09 刺猬的温驯 阅读(744) 评论(0) 推荐(0) 编辑

摘要: IntroductionIn this article, we provide an intuitive, geometric interpretation of the covariance matrix, by exploring the relation between linear tran... 阅读全文
posted @ 2015-11-09 02:39 刺猬的温驯 阅读(567) 评论(0) 推荐(0) 编辑

2015年10月31日 #

摘要: 协同过滤大概是所谓的集体智慧,由此产生相关哲学上的困惑;我们的自我选择被集体思维所绑架,在群体中逐渐被同化,自由意志沦为集体的工具;如果集体是一群乌合之众,则这个社会陷入所谓的群氓时代,埃利·帕雷瑟(Eli Pariser)在《过滤泡沫》 (Filter Bubble)一书中也表达了类似的忧虑:“这... 阅读全文
posted @ 2015-10-31 22:03 刺猬的温驯 阅读(859) 评论(0) 推荐(0) 编辑

2015年10月29日 #

摘要: R树在数据库等领域做出的功绩是非常显著的。它很好的解决了在高维空间搜索等问题。举个R树在现实领域中能够解决的例子吧:查找20英里以内所有的餐厅。如果没有R树你会怎么解决?一般情况下我们会把餐厅的坐标(x,y)分为两个字段存放在数据库中,一个字段记录经度,另一个字段记录纬度。这样的话我们就需要遍历所有... 阅读全文
posted @ 2015-10-29 22:25 刺猬的温驯 阅读(390) 评论(0) 推荐(0) 编辑

摘要: 本文介绍一种用于高维空间中的快速最近邻和近似最近邻查找技术——Kd-Tree(Kd树)。Kd-Tree,即K-dimensional tree,是一种高维索引树形数据结构,常用于在大规模的高维数据空间进行最近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Near... 阅读全文
posted @ 2015-10-29 05:16 刺猬的温驯 阅读(1521) 评论(1) 推荐(1) 编辑

2015年10月26日 #

摘要: 什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/... 阅读全文
posted @ 2015-10-26 05:15 刺猬的温驯 阅读(488) 评论(0) 推荐(0) 编辑

摘要: 拉格朗日乘子(Lagrange Multipliers)又称为待定乘数法(Undetermined Multipliers),通常用来寻找某一函数在一个或多个约束条件下的最值点。其主要思想是引入一个新的变量λ(即拉格朗日乘子),把约束条件和原函数结合到一起,形成新的函数,这个新的函数的最值点与原函数... 阅读全文
posted @ 2015-10-26 05:13 刺猬的温驯 阅读(3800) 评论(0) 推荐(0) 编辑

2015年9月17日 #

摘要: 上一篇总结了潜在语义分析(Latent Semantic Analysis, LSA),LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高,使用概率推导可以使用一些优化迭代算法来求解。Thomas H... 阅读全文
posted @ 2015-09-17 08:56 刺猬的温驯 阅读(2898) 评论(0) 推荐(0) 编辑

摘要: 主题模型(Topic Models)是一套试图在大量文档中发现潜在主题结构的机器学习模型,主题模型通过分析文本中的词来发现文档中的主题、主题之间的联系方式和主题的发展。通过主题模型可以使我们组织和总结无法人工标注的海量电子文档。较早的主题模型有混合语言模型(Mixture of Unigram),潜... 阅读全文
posted @ 2015-09-17 08:54 刺猬的温驯 阅读(1049) 评论(0) 推荐(0) 编辑

摘要: 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. ... 阅读全文
posted @ 2015-09-17 07:06 刺猬的温驯 阅读(219) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 ··· 106 下一页