从样本中找与预测样本距离最近的k个数据

这k个数据所属类别投票决定了预测样本的类别

距离公式:

\(d_ab=\sqrt[n]{\sum_{i=1}^m |a_i-b_i|^n}\)

余弦相似度:

\(cos\Theta = \frac{\sum_{i=1}^m(a_i * b_i)}{\sqrt{\sum_{i=1}^m a_i^2}*\sqrt{\sum_{i=1}^m b_i^2}}\)

其中,a,b为包含m个属性的样本,属性计算时要进行规范化(最大最小值规范化或零均值规范化等)

其中 n=1 时曼哈顿距离,n=2是欧式距离,n $\to$ $\infty$ 是切比雪夫距离

最大值最小值规范化:

\(v=\frac{x-l}{r-l}(R-L)+L\)

其中原来取值区间L,R,映射区间l,r,原值x,映射值v

零均值规范化:

\(v=\frac{x-\mu_A}{\sigma_A}\)

其中\(\mu_A\)均值,\(\sigma_A\)标准差,原值x,映射值v

posted on 2020-11-17 19:04  一口盐汽水  阅读(76)  评论(0编辑  收藏  举报