PRML Chapter 1. Introduction

为了防止忘记，要把每章的重要内容都记下来，从第一章开始

P 2

generalization的定义：The ability to categorize correctly new examples that differ from those used for training is known as generalization

P3

1) classification 和 regression 的区别：classification的目标结果是有限的(finite)，离散的(discrete)，而regression的目标结果是连续的(continuous)

2) 无监督学习的目标一般可以是：聚类、密度估计(density estimation)或降维（高维降成2、3维）以可视化(visualization)

3) exploration 和 exploitation 的区别：exploration 是开发未知领域，而exploitation 是利用已知状态

P10

regularization 作者提到在E(w)（这个函数名字现在忘记了，到时想起来改正）上添加一项|W|^2，就能避免w中的值过大导致over-fitting，这就是regularization 的作用。Wikipedia的解释：In mathematics and statistics, particularly in the fields of machine learning and inverse problems, regularization involves introducing additional information in order to solve an ill-posed problem or to prevent overfitting.

Shrinkage 的概念，在Wiki中有http://en.wikipedia.org/wiki/Shrinkage_(statistics)

1.4 The Curse of Dimensionality

维度灾难就是，当输入数据的维数增大时，大部分数据的位置都将趋于整个数据空间的边缘。

直观的讲，当一个输入向量为v(x1, x2, ... , xn)，有n维输入时，其实只要其中任意一个xi的值偏大，那么这个点就会处于整个数据空间的边缘位置，而对所有xi都比较小的可能性是很小的。

用书中P36页的定性描述可以表示为，在D维空间中一个直径为r=1的球体(sphere 超球体：hypersphere)体积，以及一个直径为r=1-ε与直径为r=1之间的空隙的体积，这两个体积的比值来说明维度灾难

如下图：

对于直径为r的超球体体积可以表示为，其中KD是一个只和D相关的常数，那么如下比例：

vp：

就是ε那个空隙的体积和整个直径为r的超球体的体积之比。

我们可以发现，对于二维的圆，ε如果小，那么中间那个r=1-ε的圆的面积就会很大，导致整个vp的值很小。如ε=0.1时，vp=1-(1-0.1)^2=0.19，所以ε那个环只占整个面积的19%

但是如果D很大很大呢，这时我们就会发现，即使ε很小很小，但是vp也会趋近于1，就是说在高维超球体中，ε的那个环的体积即使在ε很小的情况下，也会占据大多数超球体的体积，所以整个超球体中的大多数点都分布在整个超球体的边缘！

不过我还不是很明白具体应用中维度灾难导致的后果，要继续仔细看。

P43

discriminative models vs. generative models。书中43页排列了三种由复杂到简单的模型：

(a) generative models 同时对输入和输出数据进行建模，设x为输入特征，Ck为第k个输出类别，那么所求后验概率为 p(Ck|x)。

贝叶斯公式如下：

那么产生式模型就要对每一对p(x|Ck)估计概率密度，同时再估计p(Ck)的单独概率密度（先验），而p(x)可由得到

或者产生式模型还可以直接估计p(x,Ck)，我的理解就是枚举所有x和Ck的派对出现的概率。

今天才大致理解了何为产生式模型，所以产生式模型有如下典型（从大禹姐那里抄来的），从上述角度看，就可以知道为啥朴素贝叶斯是典型的产生式模型啦。

(b) discriminative models 判别式模型直接对p(Ck|x)建模，而不估计p(x|Ck)的概率密度。因此这就是传说中的“判别式模型估计条件概率”。

most discriminative models are inherently supervised and cannot easily be extended to unsupervised learning

判别式模型大概有：

Logistic regression, a type of generalized linear regression used for predicting binary or categorical outputs (also known as maximum entropy classifiers)
Linear discriminant analysis
Support vector machines
Boosting
Conditional random fields
Linear regression
Neural networks

(c) 最简单的模型，找一个 discriminant function f(x)，直接将输入 x 映射为输入类别 Ck ，就是说，这个方法甚至不计算p(Ck|x)而直接得出答案Ck。

至此第一章大致看完，2012年3月1日，22:10

posted on 2012-02-07 21:21 恒恒恒阅读(317) 评论(0) 编辑收藏举报