Knn和K-means

先开个标题,以后慢慢填充。

k近邻算法(knn)属于监督学习

 一、 三个关键点:1、k的取值,当k值较小时,选取点较少,相当于会有在较小的范围内进行学习预测,学习误差会减小,但是估计误差会增大,因为训练样本中存在噪声,选取过小的区域,噪声干扰的权重会较大,因为影响泛化能力,k减小意味整体模型复杂,容易过拟合;k选较大值时,以为选取较大的邻域进行预测,可以减少估计误差,但缺点是学习近似误差会增大,较远的点也会起到作用,k增大以为这模型简单。但是不能一味把k取大,除了计算量外,如k=N,那么无论输入实力是什么,预测结果都是训练集中最多的那个类。

2、距离的度量,最常见的欧式距离,更一般的是Lp距离,Lp范式,p=2时就是欧式距离。

3、分类决策规则:多数表决

二、kd树,是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树,用来对空间进行划分,减少运算量的一种数据格式。

k均值(k-means)

是非监督学习,

posted @ 2018-03-09 10:53  在下小白  阅读(657)  评论(0编辑  收藏  举报