从统计学statistics的观点看概率分布
已知数据x,希望得到未知label y,即得到映射x-->y:
几个概念:
1)p(x): data distribution 数据分布
2)p(y): prior distribution 先验分布
a priori: Knowable without appeal to particular experience
a priori distribution: special meaning, do not misuse
3)p(x, y): join distribution 联合分布
4)p(x|y = i): class conditional distribution 类条件分布
5)p(y|x): posterior distribution 后验分布
如何表示/估计概率密度:
1)参数估计 - parametric estimation
Parametric:假设PDF服从某种函数形式(functional form)
如高斯分布的函数形式,包含若干参数。当指定参数值之后,PDF就完全确定。
不同的概率分布由不同的参数值决定。估计PDF就是估计参数parameter estimation
2)非参数估计 - non-parametric estimation
不假设PDF是任何已知形式的函数。
如何估计?
使用训练数据直接估计空间中任意点的密度;p(x|D)
非参数不代表无参数!!!!
实际上是允许有无穷多的参数,而参数估计的参数个数是有限的。
统计学习方法的粗略分类:
1)生成模型Generative(probabilistic) models:估计p(x|y=i)和p(x),然后用贝叶斯定理求p(y=i|x).
2)判别模型Discriminative(probabilistic) models:直接估计p(y=i|x)。
3)判别函数Discriminant function:直接求一个把各类分来的边界。不假设概率模型,如FLD,SVM等。
其中。生成模型和判别模型分为两个步骤:
a. 推理inference:估计各种密度函数;
b. 决策decision:根据估计得到的PDF对任意的x给出输出。