机器学习十讲第八讲

维度灾难

 基于距离的机器学习模型

 过度拟合:模型对已知数据拟合较好,新的数据拟合较差。

高维空间中样本变得极度稀疏,容易会造成过度拟合问题。

随着维数的增加,计算复杂度指数增长。

只能近似求解,得到局部最优解而非全局最优解。

特征选择和降维

理解维度灾难问题

import numpy as np
import math
from scipy.special import gamma
def V(d,r):
    return math.pi**(d/2)*(r**d)/gamma(d/2+1)
import pandas as pd
df = pd.DataFrame()
df["d"] = np.arange(1,20)
df["V"] = V(df["d"],1)
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
fig,ax = plt.subplots(figsize=(12,6))
ds = np.arange(1,50)
plt.plot(ds,V(ds,1),marker="o")
plt.xlabel("维度$d$")
plt.ylabel("单位球体积$V_d$")
plt.show()

 

posted @ 2021-02-04 09:30  .HAHA  阅读(62)  评论(0编辑  收藏  举报