分类模型-K近邻(KNN)
1、KNN概述
最简单最初级的分类器,就是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类
K近邻(k-nearest neighbour,KNN)是一种基本分类方法,通过测量不同特征值之间的距离进行分类。
k近邻的四路是:如果一个样本在特征控件中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中k通常是不大于20的整数
KNN算法中,所选择的邻居都是已经正确分类的对象
2、KNN示例
- 绿色园要被决定赋予哪个类是红色三角形还是蓝色四方形?
- 如果k=3,由于红色三角形所占比例为2/3,绿色园将被赋予红色三角形哪个类
- 如果k=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类
- KNN算法的结果很大程度取决于K的选择
3、KNN距离计算
KNN中,通过计算对象间距离来作为各个对象之间的费相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离:
4、KNN算法
在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与测试集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是k个数据中出现次数最多的那个分类,其算法的描述为:
- 计算测试数据与各个训练数据之间的距离
- 按照距离的递增关系进行排序
- 选取距离最小的k个点
- 确定前k个点所在类别的出现频率
- 返回前k个2点中出现频率最高的类别作为测试数据的预测分类
5、代码实现
0.引入依赖
1 import numpy as np 2 import pandas as pd 3 4 # 这里直接引入 sklearn 里的数据集,iris鸡尾花 5 from sklearn.datasets import load_iris 6 # 切分数据集为训练集和测试集 7 from sklearn.model_selection import train_test_split 8 # 计算分类预测的准确率 9 from sklearn.metrics import accuracy_score
1.数据加载和预处理
1 iris = load_iris() 2 df = pd.DataFrame(data=iris.data,columns = iris.feature_names) 3 df['class']=iris.target 4 df['class']=df['class'].map({0:iris.target_names[0],1:iris.target_names[1],2:iris.target_names[2]}) 5 df.describe() 6 7 x = iris.data 8 y = iris.target.reshape(-1,1) 9 10 # 划分训练集和测试集 11 x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=35,stratify=y) 12 print(x_train.shape,y_train.shape) 13 print(x_test.shape,y_test.shape)
2. 核心算法实现
1 # 距离函数定义 2 def l1_distance(a,b): 3 return np.sum(np.abs(a-b),axis=1) 4 def l2_distance(a,b): 5 return np.sqrt(np.sum((a-b)**2,axis=1)) 6 # 分类器实现 7 class KNN(object): 8 # 定义一个初始化方法,是类的构造方法 9 def __init__(self,n_neighbors=1,dist_func=l1_distance): 10 self.n_neighbors=n_neighbors 11 self.dist_func=dist_func 12 13 # 训练模型方法 14 def fit(self,x,y): 15 self.x_train = x 16 self.y_train = y 17 18 # 模型预测方法 19 def predict(self,x): 20 # 初始化预测分类数组 21 y_pred=np.zeros((x.shape[0],1),dtype=self.y_train.dtype) 22 23 # 遍历输入的x数据点,取出每一个数据点的序号i和数据x_test 24 for i,x_test in enumerate(x): 25 # x_test跟所有训练数据计算距离 26 distances = self.dist_func(self.x_train,x_test) 27 # 得到的距离按照由近到远排序,取出索引值 28 nn_index = np.argsort(distances) 29 # 选取最近的k个点,保存他们对应的分类类别 30 nn_y = self.y_train[nn_index[: self.n_neighbors]].ravel() 31 # 统计类别出现频率最高的那个,赋给y_pred[i] 32 y_pred[i]=np.argmax(np.bincount(nn_y)) 33 34 return y_pred
3. 测试
1 # 定义一个knn实例 2 knn = KNN(n_neighbors = 3) 3 # 训练模型 4 knn.fit(x_train,y_train) 5 # 传入测试数据,做预测 6 y_pred=knn.predict(x_test) 7 # 求出预测准确率 8 accuracy = accuracy_score(y_test,y_pred) 9 10 print("预测准确率:",accuracy) 11 12 # 定义一个knn实例 13 knn = KNN() 14 # 训练模型 15 knn.fit(x_train,y_train) 16 # 保存结果list 17 result_list=[] 18 # 针对不同的参数选取,做预测 19 for p in [1,2]: 20 knn.dist_func=l1_distance if p==1 else l2_distance 21 # 考虑不同的k取值,步长为2 22 for k in range(1,10,2): 23 knn.n_neighbors=k 24 # 传入测试数据,做预测 25 y_pred=knn.predict(x_test) 26 # 求出预测准确率 27 accuracy = accuracy_score(y_test,y_pred) 28 result_list.append([k,'l1_distance' if p==1 else 'l2_distance',accuracy]) 29 30 df = pd.DataFrame(result_list,columns=['k','距离函数','预测准确率']) 31 df