随笔分类 - 机器学习和数据挖掘
摘要:Mahalanobis距离是用来度量一个点P和一个分布D之间的距离,它是衡量点P与分布D的均值之间存在多少个标准差的一个多维泛化版本。
如果P就位于分布D的均值处,则该距离为0;该距离随着P的偏离均值开始逐步增大。
阅读全文
摘要:What is the difference between categorical, ordinal and interval variables?
In talking about variables, sometimes you hear variables being described as categorical (or sometimes nominal), or ordinal, or interval. Below we will define these terms and explain why they are important.
阅读全文
摘要:在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理。
首先需要说明的是,numpy的数组中可以使用np.nan/np.NaN(Not A Number)来代替缺失值,对于数组中是否存在nan可以使用np.isnan()来判定。
使用type(np.nan)或者type(np.NaN)可以发现改值其实属于float类型,代码如下:
阅读全文
摘要:KDD Cup '99 数据集存在一些问题,作者提议相关会议和杂志的peer reviewer谨慎考虑(甚至是拒绝)仅由此数据得出的结论.
阅读全文
摘要:本文重新对AdaBoost框架进行梳理,结合Decision Stumps作为弱分类器详细介绍了AdaBoost过程中对于带权分类误差的计算,样本权重的更新,分类器权重的计算。
阅读全文
摘要:机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。 不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。 问题是,真有个“大伙儿”吗?就不会是“两伙儿”、“三伙儿”?如果有“几伙儿”,那到底该跟着“哪伙儿”走呢? 很多人可能没有意识到,所谓的machine learning community,现在至少包含了两个有着完全不同的文化、...
阅读全文
摘要:N-Gram模型时大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔画,或代表字母或笔画的数字,转换成汉字串(即句子)时,可以计算出最大概率的句子,从而实现从到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔画串、数字串)的重码问题。
阅读全文
摘要:本文详细描述了数据挖掘中的特征选择和特征权重之间的区别和联系,通过指纹识别的例子详细讲述了这两者之间的区别。
阅读全文
摘要:本文介绍了数据归一化(标准化)实施的原因和两种常用的数据归一化方法
阅读全文
摘要:本文详细描述了DBSCAN聚类算法的核心概念定义、聚类过程以及算法描述等内容。
阅读全文
摘要:本文详细介绍了余弦距离和杰卡德相似度、杰卡德距离的计算方法,对比分析了余弦距离和欧氏距离的差异以及适用范围。在分析杰卡德相似度的计算过程中,引入非对称二元变量的概念,解释了杰卡德相似度的计算特点及其原因。最后给出了调整余弦相似度的一种简单算法。
阅读全文
摘要:本文从一个实例(如何获取《中国的蜜蜂养殖》这篇文章的关键词)出发,详细的描述了TF-IDF算法的思路和计算过程,讲解了该算法的应用途径,最后分析了该算法的不足之处。
阅读全文
摘要:随着数据收集和存储技术的发展,收集大量缺少标记的数据已相当容易,而为这些数据提供标记则相对困难,因为数据标记过程往往需要消耗大量人力物力,甚至必须依赖于少数领域专家来完成。例如在计算机辅助诊断中,可以方便地从医院日常体检中获取训练数据,但是让医学权威专家为所有的体检结果提供诊断往往是不现实的。事实上,在实际应用中,大量未标记数据和少量有标记数据并存的情况比比皆是。然而,由于能用于监督学习的有标记样本较少,通常难以学得泛化能力强的模型。因此,如何利用大量未标记数据来帮助提升在少量有标记数据上学得模型的泛化能力,成了当前机器学习领域倍受关注的重要问题之一。
阅读全文
摘要:本文首先简要的描述了人工神经网络的基本原理,最后详细的介绍了后向传播BP神经网络的训练步骤。
阅读全文
摘要:本文详细的介绍了神经网络的模型、工作方式等基本原理,针对Iris数据集,给出了使用Matlab实现的BP神经网络算法和C# AForge框架实现的BP神经网络程序,最后对影响神经网络性能的各项参数进行了对照分析。
阅读全文
摘要:在做分类时常常需要顾及不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本之间的“距离”(Distance)。采用什么样的方法计算距离是很讲究的,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量做一个总结。
阅读全文
摘要:本文详细的描述了数据挖掘领域最为常用的分类和预测等任务的一些基本的概念和需要注意的问题
阅读全文
摘要:本文用实例详细的介绍了隐式马尔科夫模型的来龙去脉。
阅读全文
摘要:数据挖掘中易犯的几大错误
按照Elder博士的总结,这几大易犯错误包括:
缺乏数据(Lack Data)
太关注训练(Focus on Training)
只依赖一项技术(Rely on One Technique)
提错了问题(Ask the Wrong Question)
只靠数据来说话(Listen (only) to the Data)
使用了未来的信息(Accept Leaks from the Future)
抛弃了不该忽略的案例(Discount Pesky Cases)
轻信预测(Extrapolate)
试图回答所有问题(Answer Every Inquiry)
随便地进行抽样(Sample Casually)
太相信最佳模型(Believe the Best Model)
阅读全文