文章分类 - 机器学习
摘要:在项目中用到了迭代最小二乘法的方法,几次被专业人问这个学术名词或者算法叫什么?都傻眼 RANSAC是“RANdom SAmple Consensus(随机抽样一致)”的缩写。它可以从一组包含“局外点”的观测数据集中,通过迭代方式估计数学模型的参数。它是一种不确定的算法——它有一定的概率得出一个合理的
阅读全文
摘要:隐马尔可夫模型 (Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析。下图是一个三个状态的隐马尔可夫模型状态转移图,其中x 表示隐含状态,y 表示可观察的输出,a 表示状
阅读全文
摘要:SNE是通过仿射(affinitie)变换将数据点映射到概率分布上,主要包括两个步骤: SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。 SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似。 我们看到t-SNE模型是
阅读全文
摘要:"均值、方差、协方差、协方差矩阵、特征值、特征向量" "A geometric interpretation of the covariance matrix" "颜色迁移— —基础知识(色彩空间及其转换)"
阅读全文
摘要:基础知识 [关于决策树的基础知识参考:http://blog.csdn.net/holybin/article/details/22914417] 在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,所以叫做随机森林。随机森林中的决策树之间是没有关联的,当测试数据进入随机
阅读全文
摘要:1、主要用到的函数如下: A、按照libsvm的数据格式读取txt文件 [label_vector, instance_matrix] = libsvmread('data.txt'); B、将数据写成SVM规定的形式 libsvmwrite('data.txt', label_vector, in
阅读全文
摘要:有监督学习回归模型中,我们利用训练集直接对条件概率p(y|x;θ)建模,例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模(其中g(z)是sigmoid函数)。假设现在有一个分类问题,要根据一些动物的特征来区分大象(y = 1)和狗(y = 0)。给定这样的一种数据集,
阅读全文
摘要:叶杰平,美国密歇根大学终身教授,密歇根大学数据研究中心管理委员会成员,美国明尼苏达大学博士毕业,现任滴滴研究院副院长。在NIPS, KDD, IJCAI, ICDM, SDM, ACML, and PAKDD发表多篇论文. 他担任Data Mining and Knowledge Discovery
阅读全文
摘要:1统计模式识别的原理与方法简介 1.1 模式识别 什么是模式和模式识别? 广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为
阅读全文
摘要:1. Least-squares(最小二乘法)是最经典的机器学习算法,后续的大部分机器学习算法(包括题主提到的Lasso,ridge regression)都是在其基础上发展而来的。Linear model即,只要求得其参数,便可以得到自变量与因变量的映射关系。因此有监督回归的任务就是通过个成对的训
阅读全文
摘要:K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、
阅读全文
摘要:简单列举几种常用的推荐系统评测指标: 1、准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有
阅读全文
摘要:1.基于内容的推荐 对于基于内容的推荐不多赘述,只说下基本的概念,根据用户已经评分且喜欢(评分高)的电影,为用户推荐和他过去喜欢的电影相似的电影,这里的相似就要依据电影的"内容"来计算了,例如电影的类型等等。 利用到评分预测上,就是对于目标用户A和电影M,从A已经评价过的电影中找到与M相似的电影,利
阅读全文