从样本中找与预测样本距离最近的k个数据
这k个数据所属类别投票决定了预测样本的类别
距离公式:
\(d_ab=\sqrt[n]{\sum_{i=1}^m |a_i-b_i|^n}\)
余弦相似度:
\(cos\Theta = \frac{\sum_{i=1}^m(a_i * b_i)}{\sqrt{\sum_{i=1}^m a_i^2}*\sqrt{\sum_{i=1}^m b_i^2}}\)
其中,a,b为包含m个属性的样本,属性计算时要进行规范化(最大最小值规范化或零均值规范化等)
其中 n=1 时曼哈顿距离,n=2是欧式距离,n $\to$
$\infty$
是切比雪夫距离
最大值最小值规范化:
\(v=\frac{x-l}{r-l}(R-L)+L\)
其中原来取值区间L,R,映射区间l,r,原值x,映射值v
零均值规范化:
\(v=\frac{x-\mu_A}{\sigma_A}\)
其中\(\mu_A\)均值,\(\sigma_A\)标准差,原值x,映射值v