机器学习第八讲

第八讲、维度灾难

1.维度灾难 随着维度(例如特征或自由度)的增多,问题的复杂性(或计算算代价)呈指数级增长的现象。

单位球体积随纬度的变化公式:

 

 

高维空间中,球体内部的体积与表面积处的体积相比可以忽略不计。

2.高维空间中的欧氏距离

 

 

3.基于距离的机器学习模型

K近邻:样本间距离。

支持向量机:样本到决策面距离。

K-Means:样本到聚类中心距离。

层次聚类:不同簇之间的距离。

推荐系统:商品或用户相似度。

·息检索:查询和文档之前的相似度。

4.稀疏性与过度拟合

·过度拟合(overfitting)︰模型对已知数据拟合较好,新的数据拟合较差·高维空间中样本变得极度稀疏,容易会造成过度拟合问题。

5.决策树

随着维数的增加,计算复杂度指数增长 只能近似求解,得到局部最优解而非全局最优解

例子:决策树 选择切分点对空间进行划分 每个特征m个取值,候选划分数量m^d(维度灾难! )

posted @ 2021-02-03 20:42  利威尔  阅读(65)  评论(0编辑  收藏  举报