Non parametric density estimate and knn 非参数化概率密度估计与KNN
简介:
主要参考<<introduction to statistical pattern recognation>>第六章,做简单笔记。
1. 参数化与非参数化
参数化是指我们对于概率预先做出了分布形式假设,我们要做的只是估算参数值,比如我们假定是高斯分布,二项式分布等等。
非参数化直接从观察数据估计概率密度,不依赖任何对分布形式的假设。
2. 如何非参数化估计?
- 可以采用Parzen密度估计方法。
- 可以采用KNN方法。
区别是Parzen方法是固定v,不固定k,而KNN方法是固定k,不固定v。
3. 结论
- 贝叶斯分类器是最小化分类误差的理论上的最优分类器
- 参数化和非参数化分类器
- 非参数化分类器不对密度函数做任何假设
- 一个分类器将成为贝叶斯分类器,如果密度估算与实际的密度函数完全一致
- 当sample data 无限多的时候
- 结果误差就是贝叶斯误差,理论上的最优误差