机器学习系列(5) KNN算法

KNN算法

一、KNN算法介绍

KNN算法全称是K Nearest Neighbors ，KNN原理就是当预测一个值属于什么分类，根据它最近的K个分类是什么进行预测它属于什么类别。

重点有两个： K 的确定和距离的计算

距离的计算：欧式距离

K值的计算：通过交叉验证（将样本数据按照一定的比例拆分成训练用的数据和验证用的数据），从中选取一个较小的K值开始，不断增加K的值，然后计算验证集合方差，最终找到一个比较适合的K值

二、KNN的优缺点

优点：

简单易用，相比其他算法，KNN的算法比较简单明了。
模型训练较快
预测效果好
对异常值不敏感

缺点：

对内存要求高，要训练所有的数据
预测阶段比较慢
对不相关的功能或者数据规模敏感

三、KNN算法代码实现

3.1. KNN算法主要参数

def KNeighborsClassifier(n_neighbors =5,
                        weights='uniform',
                        algorithm ='',
                        leaf_size = '30',
                        p=2,
                        metric = 'minkowski',
                        metric_params = None,
                        n_jobs = None
                        )
'''
- n_neighbors: 这个值就是指Knn中的"K"了，通过调整K值，会有不同的效果
- weights： 权重，最普遍的KNN算法无论距离如何，权重都一样的，但是有时候我们想让距离他更近的点更加重要，这个时候就需要调用weight参数，
这个参数有三个选项： 'uniform':不管远近权重都一样；‘distance':距离目标越近权重越高；自定义函数：自定义一个函数，根据输入坐标值返回权重
- algorithm:在sklearn中，要构建knn模型有三种构建方式：1.暴力法：直接计算距离存储比；2.使用kd树构建knn模型；3：使用球状树构建；4 auto自动
选择    'brute':蛮力实现 ；"kd_tree":kd实现KNN；'ball_tree':球状树实现KNN ； 'auto':默认参数，自动选择合适的方法构建模型
- leaf_size:如果选择蛮力实现，这个值是可以忽略的，当使用kd树，他是控制叶子的阈值，默认为30，但是如果数据增多这个参数需要增大，否则速度过慢，
容易过拟合。
- p: 和metric结合使用，当metric参数是minkowski的时候， p=1为曼哈段，p=2是欧式距离，默认为p=2
- metric: 指定距离的度量方法，一般用欧式距离
        'euclidean':欧式距离
        'manhattan':曼哈顿距离
        'chebyshev':切比雪夫距离
        'minkowski':闵可夫斯基距离，默认参数
- n_jobs:指定多少个cpu

3.2. KNN算法在鸢尾花数据集上的实现

导入数据

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
iris = load_iris()
x = iris.data
y = iris.target

调参

# 调整K值
k_range = range(1, 31)
score = []
# 循环，查看误差效果
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    # cv 参数决定数据集划分比例，这里是按照5:1划分训练集和测试集
    scores = cross_val_score(knn, x, y, cv=6, scoring='accuracy')
    score.append(scores.mean())
# 画学习曲线
plt.plot(k_range, score)
plt.xlabel('value of K for KNN')
plt.ylabel('score')
plt.show()
# 可以发现k =11时，效果最好

# 调整weights参数
# weights参数
score1 = []
for k in ['uniform', 'distance']:
    knn = KNeighborsClassifier(n_neighbors=11,
                              weights= k)
    scores = cross_val_score(knn, x, y, cv=6, scoring='accuracy')
    score1.append(scores.mean())
print(score1)
# 选取weights = uniform参数

[0.98070987654321, 0.9799382716049383]

建模

# 建模
knn = KNeighborsClassifier(n_neighbors=11, weights='uniform')
clf = knn.fit(x, y)
score = cross_val_score(clf, x, y, cv=10).mean()
score

posted @ 2019-12-30 09:13 羊驼也要搞大数据阅读(707) 评论(0) 编辑收藏举报

刷新页面返回顶部

杨杰来了88