随笔分类 - 机器学习
1
摘要:https://blog.csdn.net/jinping_shi/article/details/52433975
阅读全文
摘要:http://www.cnblogs.com/pinard/p/6349233.html
阅读全文
摘要:(一)K-means 提到k-means不得不说的许高建老师,他似乎比较偏爱使用这种聚类方法,在N个不同场合听到他提起过,k-means通过设置重心和移动中心两个简答的步骤,就实现了数据的聚类。下面就来介绍下k-means算法。 一、 数值属性距离度量 度量数值属性相似度最简单的方法就是计算不同数值
阅读全文
摘要:提升方法包含两大思想:Bagging和Boosting Bagging 和 Boosting 都是一种将几个弱分类器(可以理解为分类或者回归能力不好的分类器)按照一定规则组合在一起从而变成一个强分类器。但二者的组合方式有所区别。 一、Bagging Bagging的思想很简单,我选取一堆弱分类器用于
阅读全文
摘要:3.1、摘要 在这一篇文章中,将讨论一种被广泛使用的分类算法——决策树(decision tree)。决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。 3.2、决策树引导 通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这
阅读全文
摘要:1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊
阅读全文
摘要:在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,不过后面也会介绍它
阅读全文
摘要:SVM处理二分类 支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结
阅读全文
摘要:online learning 原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样
阅读全文
摘要:第一部分: 这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项
阅读全文
摘要:独立成分分析 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里共放置了n个
阅读全文
摘要:一、SVD奇异值分解的定义 假设是一个的矩阵,如果存在一个分解: 其中为的酉矩阵,为的半正定对角矩阵,为的共轭转置矩阵,且为的酉矩阵。这样的分解称为的奇异值分解,对角线上的元素称为奇异值,称为左奇异矩阵,称为右奇异矩阵。 二、SVD奇异值分解与特征值分解的关系 特征值分解与SVD奇异值分解的目的都是
阅读全文
摘要:推荐博文:http://blog.codinglabs.org/articles/pca-tutorial.html 推荐博文:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html(上) 推荐博文:http://www.cn
阅读全文
摘要:一、有监督学习 算法一:决策树 决策树是一种树形结构,为人们提供决策依据,决策树可以用来回答yes和no问题,它通过树形结构将各种情况组合都表示出来,每个分支表示一次选择(选择yes还是no),直到所有选择都进行完毕,最终给出正确答案。 算法二:朴素贝叶斯分类器 朴素贝叶斯分类器基于贝叶斯理论及其假
阅读全文
摘要:从网上看到一篇总结的很不错的sklearn使用文档,备份勿忘。 引言 对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库
阅读全文
1