摘要:在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。
阅读全文
摘要:
随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关。随机模拟中有一个重要的问题就是给定一个概率分布p(x),我们如何在计算机中生成它的样本。
阅读全文
摘要:这一篇是整个第五章的精华了,会重点介绍一下Neural Networks的训练方法——反向传播算法(backpropagation,BP),这个算法提出到现在近30年时间都没什么变化,可谓极其经典。也是deep learning的基石之一。还是老样子,下文基本是阅读笔记(句子翻译+自己理解),把书里的内容梳理一遍,也不为什么目的,记下来以后自己可以翻阅用。
阅读全文
摘要:本章节将会讨论 的前向神经网络(feed-forward neural network,后面简称NN),或者称为多层感知器(multilayer perceptron)。
阅读全文
摘要:
信息论,不用多说,在很多领域都得到了应用,应该算是一个相对成熟的主题。PRML这一节里将介绍信息论的一些基本概念,主要是为了明白这些概念是怎么来的(如gain,entropy),代表什么含义。在书里没有具体的应用结合,后面可以单独简介一节关于决策树的方法,需要的信息论知识基本在这一节里面可以覆盖到。
章节1.6 Information Theory
直观的一种理解,当我们听到一个不太可能发生的事件时我们所接收的信息量要比听到一件习以为常的事件所接收的信息量大,如果我们听到了一件必然发生的事情那么我们接收到的信息就是0。让我们考察对于一个离散随机变量x,类似的出现那些概率很低的x取值时我们得到的信息量要大。
阅读全文
摘要:
这一节的上半部分,我们结合一个盒子-水果抽取的问题,从随机可重复事件频率的角度理解了概率,这是经典的一种通过频率来理解概率的角度,接下来我们用贝叶斯角度来理解概率,重点关注不确定性。
有些事件称之为不确定事件,比如月亮是不是曾经围绕太阳旋转,北极的冰是否会在一百年后消失,这些事件都没办法通过重复事件来确定概率。但是我们可以通过其他一些手段来得到一些结果,比如我们可以通过观察每年冰层的消融比率来确定是否有可能消失。当然,人们会通过这些结果来指导未来的活动(decision),比如减少温室气体的排放,通过这些行为,我们需要重新评估冰层消失的可能。这里引出了从贝叶斯角度看概率。
阅读全文
摘要:
今天开始学Pattern Recognition and Machine Learning (PRML)书,章节1.2,Probability Theory (上)
这一节是浓缩了整本书关于概率论的精华,突出一个不确定性(uncertainty)的理解。
首先从一个例子说起:有两个盒子,一个红色盒子里面有2个苹果(绿)+6个桔子(黄),一个蓝色盒子里面有3个苹果+1个桔子,具体可以见图1.9。随机挑选一个盒子,然后从盒子里随机拿出一个水果,观察是什么后放回原处,重复这个过程很多次。
我们定义挑选红色盒子的次数为总次数的40%,挑选蓝色盒子的次数为60%。在这个例子中,盒子的颜色是一个随机变量,我们称之为B,它有两个取值r(red)和b(blue);水果也是一个随机变量,称之为F,它的取值是a(apple)和o(orange)。
首先
阅读全文
摘要:
博士也快念完了,明年毕业,今年开始准备毕业相关的东西,感觉自己做machine learning 的research做的很散,论文发了些,却不系统。决心在毕业前好好补一下基础知识,我相信离开大学就很难有这样的机会了。以前我入门机器学习是看的《The Elements of Statistic Learning》的前半本书,(半本书看了半年,呵呵,比较累),书很不错。一直听说国外很多学校是用PRML这本书做教材的,自己一直当工具书翻,没有仔细看过,因此就打算看PRML这本书了。
尽量把看的内容写到blog中,我打算前面写的章节可以密集一些,当作基础复习,后面的topic可能会适当精选一些。下面的文字有一些是用原书中的句子翻译来的,但很多是我自己的话,毕竟我不是在翻译;其中的公式和图标,基本上会来自原书,毕竟我写只是blog,全自己写太消耗时间了
阅读全文
摘要:
Laplacian Eigenmaps[1] 看问题的角度和LLE有些相似,也是用graph的角度去构建数据之间的关系。
它的直观思想是希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近。Laplacian Eigenmaps可以反映出数据内在的流形结构。
阅读全文
摘要:1 介绍
在计算机视觉、模式识别、数据挖掘很多应用问题中,我们经常会遇到很高维度的数据,高维度的数据会造成很多问题,例如导致算法运行性能以及准确性的降低。特征选取(Feature Selection)技术的目标是找到原始数据维度中的一个有用的子集,再运用一些有效的算法,实现数据的聚类、分类以及检索等任务。
特征选取的目标是选择那些在某一特定评价标准下的最重要的特征子集。这个问题本质上是一个综合的优化问题,具有较高的计算代价。传统的特征选取方法往往是独立计算每一个特征的某一得分,然后根据得分的高低选取前k个特征。这种得分一般用来评价某一特征区分不同聚类的能力。这样的方法在二分问题中一般有不错的结果,但是在多类问题中很有可能会失败。
基于是否知道数据的lebal信息,特征提取方法可以分为有监督和无监督的方法。有监督的的特征提取方法往往通过特征与label之间的相关性来评估特征的重要性。但是label的代价是高昂的,很难在大数据集上进行计算。因此无监督的特征提取方法就显得尤为重要。无监督的方法只利用数据本身所有的信息,而无法利用数据label的信息,因此要得到更好的结果往往
阅读全文
摘要:我对论文打分(满分5分):4.5分
论文目标:
做high dimensional regression的问题,即
一般做回归的时候y的维度会比x低,甚至是一维的,比如一般用回归来做分类、预测。
但是y的维度如果比较高,而x可以是高维也可以是低维,回归问题可能需要有不一样的角度去思考。
阅读全文
摘要:在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。
本文的目的就是对常用的相似性度量作一个总结。
本文目录:
1. 欧氏距离
2. 曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5. 标准化欧氏距离
6. 马氏距离
7. 夹角余弦
8. 汉明距离
9. 杰卡德距离 & 杰卡德相似系数
10. 相关系数 & 相关距离
11. 信息熵
阅读全文
摘要:Locally linear embedding(LLE)[1] 是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。
见图1,使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据仍能保持原有的数据流形(红色的点互相接近,蓝色的也互相接近),说明LLE有效地保持了数据原有的流行结构。
阅读全文
摘要:Linear Discriminant Analysis (也有叫做Fisher Linear Discriminant)是一种有监督的(supervised)线性降维算法。与PCA保持数据信息不同,LDA是为了使得降维后的数据点尽可能地容易被区分!
假设原始数据表示为X,(m*n矩阵,m是维度,n是sample的数量)
既然是线性的,那么就是希望找到映射向量a, 使得 a‘X后的数据点能够保持以下两种性质:
1、同类的数据点尽可能的接近(within class)
2、不同类的数据点尽可能的分开(between class)
来看一个例子:两堆点会这样被降维
阅读全文
摘要:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。
Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。
阅读全文