Data Mining - 随笔分类 - 刺猬的温驯

Latent semantic analysis note(LSA)

摘要：1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析，也被称为LSI(latent semantic index)，是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向... 阅读全文

posted @ 2015-12-11 23:47 刺猬的温驯阅读(630) 评论(0) 推荐(0)

文本相似性计算

摘要：集合模型向量空间模型局部敏感哈希minhashsimhash主题模型参考相似性计算常常是聚类分析、数据去重、信息检索以及推荐系统的一个基础工具，这里列举了一些常用的特征提取和相似性计算方法。集合模型基于集合模型的相似度计算可以先使用所谓k-Shingling的办法，对一个句子或者文档做切片，对于中文... 阅读全文

posted @ 2015-11-27 05:54 刺猬的温驯阅读(497) 评论(0) 推荐(0)

SVM 简要推导过程

摘要：SVM 是一块很大的内容，网上有写得非常精彩的博客。这篇博客目的不是详细阐述每一个理论和细节，而在于在不丢失重要推导步骤的条件下从宏观上把握 SVM 的思路。1. 问题由来SVM (支持向量机) 的主要思想是找到几何间隔最大的超平面对数据进行正确划分，与一般的线性分类器相比，这样的超平面理论上对未知... 阅读全文

posted @ 2015-11-09 22:32 刺猬的温驯阅读(563) 评论(0) 推荐(0)

漫谈：机器学习中距离和相似性度量方法

摘要：在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满... 阅读全文

posted @ 2015-11-09 22:09 刺猬的温驯阅读(774) 评论(0) 推荐(0)

数据挖掘算法之协同过滤算法

摘要：协同过滤大概是所谓的集体智慧，由此产生相关哲学上的困惑；我们的自我选择被集体思维所绑架，在群体中逐渐被同化，自由意志沦为集体的工具；如果集体是一群乌合之众，则这个社会陷入所谓的群氓时代，埃利·帕雷瑟（Eli Pariser）在《过滤泡沫》（Filter Bubble）一书中也表达了类似的忧虑：“这... 阅读全文

posted @ 2015-10-31 22:03 刺猬的温驯阅读(885) 评论(0) 推荐(0)

R树空间索引

摘要：R树在数据库等领域做出的功绩是非常显著的。它很好的解决了在高维空间搜索等问题。举个R树在现实领域中能够解决的例子吧：查找20英里以内所有的餐厅。如果没有R树你会怎么解决？一般情况下我们会把餐厅的坐标(x,y)分为两个字段存放在数据库中，一个字段记录经度，另一个字段记录纬度。这样的话我们就需要遍历所有... 阅读全文

posted @ 2015-10-29 22:25 刺猬的温驯阅读(409) 评论(0) 推荐(0)

Kd-Tree算法原理和开源实现代码

摘要：本文介绍一种用于高维空间中的快速最近邻和近似最近邻查找技术——Kd-Tree（Kd树）。Kd-Tree，即K-dimensional tree，是一种高维索引树形数据结构，常用于在大规模的高维数据空间进行最近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Near... 阅读全文

posted @ 2015-10-29 05:16 刺猬的温驯阅读(1654) 评论(1) 推荐(1)

回归分析

摘要：什么是回归分析？回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。例如，司机的鲁莽驾驶与道路交通事故数量之间的关系，最好的研究方法就是回归。回归分析是建模和分析数据的重要工具。在这里，我们使用曲线/... 阅读全文

posted @ 2015-10-26 05:15 刺猬的温驯阅读(511) 评论(0) 推荐(0)

主题模型之概率潜在语义分析（Probabilistic Latent Semantic Analysis）

摘要：上一篇总结了潜在语义分析（Latent Semantic Analysis, LSA），LSA主要使用了线性代数中奇异值分解的方法，但是并没有严格的概率推导，由于文本文档的维度往往很高，如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高，使用概率推导可以使用一些优化迭代算法来求解。Thomas H... 阅读全文

posted @ 2015-09-17 08:56 刺猬的温驯阅读(2978) 评论(0) 推荐(0)

主题模型之潜在语义分析（Latent Semantic Analysis）

摘要：主题模型（Topic Models）是一套试图在大量文档中发现潜在主题结构的机器学习模型，主题模型通过分析文本中的词来发现文档中的主题、主题之间的联系方式和主题的发展。通过主题模型可以使我们组织和总结无法人工标注的海量电子文档。较早的主题模型有混合语言模型（Mixture of Unigram），潜... 阅读全文

posted @ 2015-09-17 08:54 刺猬的温驯阅读(1153) 评论(0) 推荐(0)

机器学习中的相似性度量

摘要：在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. ... 阅读全文

posted @ 2015-09-17 07:06 刺猬的温驯阅读(228) 评论(0) 推荐(0)

漫谈：机器学习中距离和相似性度量方法

摘要：在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满... 阅读全文

posted @ 2015-09-17 06:53 刺猬的温驯阅读(230) 评论(0) 推荐(0)

K Nearest Neighbor 算法

摘要：K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是，K-Means算法用来聚类，用来判断哪些东西是一个比较相近的类型，而KNN算法是... 阅读全文

posted @ 2015-09-17 05:05 刺猬的温驯阅读(520) 评论(0) 推荐(0)

K-Means 算法

摘要：最近在学习一些数据挖掘的算法，看到了这个算法，也许这个算法对你来说很简单，但对我来说，我是一个初学者，我在网上翻看了很多资料，发现中文社区没有把这个问题讲得很全面很清楚的文章，所以，把我的学习笔记记录下来，分享给大家。在数据挖掘中，k-Means 算法是一种cluster analysis的算法，其... 阅读全文

posted @ 2015-09-17 04:46 刺猬的温驯阅读(253) 评论(0) 推荐(0)

《女士品茶》与统计检验

摘要：在2008年参加国家统计局举办的建模大赛期间，书店书架上的《女士品茶（The Lady Tasting Tea）――20世纪统计怎样变革了科学》引起了我们的关注，《女士品茶》书名一改以往统计类书籍的枯燥和灰暗，新意盎然。匆匆翻过后，便买下了。《女士品茶》并不是一本女性读物，也不是一本专门讲茶的读物，... 阅读全文

posted @ 2015-09-17 03:13 刺猬的温驯阅读(2886) 评论(0) 推荐(0)

K近邻算法

摘要：1.1、什么是K近邻算法何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。为何要找邻居？打个比方来说，假设你来到一个陌生的村庄，现在你要找到与你有着... 阅读全文

posted @ 2015-09-17 03:12 刺猬的温驯阅读(670) 评论(0) 推荐(0)

PCA原理分析

摘要：动机在机器学习领域中，我们常常会遇到维数很高的数据，有些数据的特征维度高达上百万维，很显然这样的数据是无法直接计算的，而且维度这么高，其中包含的信息一定有冗余，这时就需要进行降维，总的来说，我们降维的主要目的有如下几条:在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误... 阅读全文

posted @ 2015-07-22 01:37 刺猬的温驯阅读(539) 评论(0) 推荐(0)

决策树0-基本模型

摘要：什么是决策树其实网络上有着很多说明决策树的文章，比如参考资料中的1和2，主要是因为这个机器学习的方法实在太经典了，有着很多不同的算法实现，包括最早的由Quinlan在1986年提出的ID3算法、1993年同样是Quinlan提出的C4.5算法以及由Braiman等人在1984年提出的CART算法。尽... 阅读全文

posted @ 2015-07-22 01:35 刺猬的温驯阅读(406) 评论(0) 推荐(0)

朴素贝叶斯分类器

摘要：朴素贝叶斯在经典的分类器模型中，Naive Bayes Classifier应该是比较简单的一种了，比之前的决策树要简单得多，但是它虽然简单，但是一点都不简约，在很多情况下它往往能得到比较好的分类效果。通常的分类问题中，每一个实例都可以用一个特征向量来表示的，其相应的类别用来表示，且,。其中表示样本... 阅读全文

posted @ 2015-07-22 01:34 刺猬的温驯阅读(416) 评论(0) 推荐(0)

隐马尔科夫模型的来龙去脉

摘要：作为应用广泛的一种统计模型(尤其是在自然语言处理(NLP)中),隐马尔科夫模型是非常值得一说的，本文就隐马尔科夫模型的原理和应用介绍进行说明。由于隐马尔科夫模型有着很多不同的具体算法实现，本文暂时跳过这部分内容，算法部分会另外写成一篇博文。马尔科夫链在语言模型及其实现中，我曾经简单地提到过马尔科夫链... 阅读全文

posted @ 2015-07-22 01:29 刺猬的温驯阅读(882) 评论(0) 推荐(0)

君子博学而日参省乎己则知明而行无过矣

公告

随笔分类 - Data Mining

君子博学而日参省乎己 则知明而行无过矣

公告

随笔分类 - Data Mining

君子博学而日参省乎己则知明而行无过矣