机器学习--最邻近规则分类KNN算法
理论学习:
3. 算法详述
3.1 步骤:
为了判断未知实例的类别,以所有已知类别的实例作为参照
选择参数K
计算未知实例与所有已知实例的距离
选择最近K个已知实例
根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最多数的类别
3.2 细节:
关于K
关于距离的衡量方法:
3.2.1 Euclidean Distance(欧式距离) 定义
其他距离衡量:余弦值(cos), 相关度 (correlation), 曼哈顿距离 (Manhattan distance)
4. 算法优缺点:
4.1 算法优点
简单
易于理解
容易实现
通过对K的选择可具备丢噪音数据的健壮性
4.2 算法缺点
需要大量空间储存所有已知实例
算法复杂度高(需要比较所有已知实例与要分类的实例)
当其样本分布不平衡时,比如其中一类样本过大(实例数量过多)占主导的时候,新的未知实例容易被归类为这个主导样本,因为这类样本实例的数量过大,但这个新的未知实例实际并木接近目标样本
5. 改进版本
考虑距离,根据距离加上权重
比如: 1/d (d: 距离)
应用:
1、用库来进行实现算法
1 from sklearn import neighbors 2 from sklearn import datasets 3 4 knn = neighbors.KNeighborsClassifier() 5 6 iris = datasets.load_iris() 7 8 print(iris) 9 10 knn.fit(iris.data, iris.target) # 建模,两个参数:二维的特征值矩阵、一维的每一个实例所对应的对象 11 12 predictedLabel = knn.predict([[0.1, 0.2, 0.3, 0.4]]) 13 14 print(predictedLabel)
2、不调用任何库来实现knn算法,其中使用到的数据集是sklearn自带的iris数据集
1 # 不调用任何库来实现knn算法 2 3 import csv 4 import random 5 import math 6 import operator 7 8 # 将数据集装载到Python里面 9 # filename:数据集存放的文件 10 # split:以此参数为界限将数据集分为trainingSet训练集和testSet测试集 11 def loadDataset(filename, split, trainingSet=[], testSet=[]): 12 with open(filename, 'r') as csvfile: # 打开文件 13 lines = csv.reader(csvfile) # 读取文件的所有行 14 dataset = list(lines) # 文件内容转换成list结构 15 16 # 将数据集分为两部分 17 for x in range(len(dataset) - 1): 18 for y in range(4): 19 dataset[x][y] = float(dataset[x][y]) 20 # 随机数小于split放入训练集,大于就放入测试集 21 if random.random() < split: 22 trainingSet.append(dataset[x]) 23 else: 24 testSet.append(dataset[x]) 25 26 # 计算两个实例之间的欧式距离 27 # instance1、instance2是两个实例 28 # length是实例的维数 29 def euclideanDistance(instance1, instance2, length): 30 distance = 0 # 设置初始值为0 31 32 # 计算所有维度的差的平方和 33 for x in range(length): 34 distance += pow((instance1[x] - instance2[x]), 2) 35 return math.sqrt(distance) 36 37 # 测试集中的一个实例到训练集的距离最近的k个实例 38 # trainingSet:训练集 39 # testInstance:测试集实例 40 # k:距离最近的个数 41 def getNeighbors(trainingSet, testInstance, k): 42 distances = [] 43 length = len(testInstance) - 1 44 for x in range(len(trainingSet)): 45 dist = euclideanDistance(testInstance, trainingSet[x], length) 46 distances.append((trainingSet[x], dist)) 47 distances.sort(key=operator.itemgetter(1)) 48 neighbors = [] 49 for x in range(k): 50 neighbors.append(distances[x][0]) 51 return neighbors 52 53 def getResponse(neighbors): 54 """ 55 得到 56 :param neighbors:附近的实例 57 :return:得票最多的类别情况 58 59 """ 60 classVotes = {} 61 for x in range(len(neighbors)): 62 response = neighbors[x][-1] 63 if response in classVotes: 64 classVotes[response] += 1 65 else: 66 classVotes[response] = 1 67 sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True) # classVotes.iteritems() 68 return sortedVotes[0][0] 69 70 def getAccuracy(testSet, predictions): 71 """ 72 得到预测的正确率 73 :param testSet:测试集 74 :param predictions: 预测结果 75 :return: 预测的正确率 76 77 """ 78 correct = 0 79 for x in range(len(testSet)): 80 if testSet[x][-1] == predictions[x]: 81 correct += 1 82 return (correct/float(len(testSet))) * 100.0 83 84 85 def main(): 86 """ 87 88 :return: 89 """ 90 trainingSet = [] 91 testSet = [] 92 split = 0.67 # 把2/3的数据作为训练集,1/3为测试集 93 loadDataset(r'irisdata.txt', split, trainingSet, testSet) 94 print('Train set: ' + repr(len(trainingSet))) 95 print('Test set: ' + repr(len(testSet))) 96 97 predictions = [] 98 k = 3 99 for x in range(len(testSet)): 100 neighbors = getNeighbors(trainingSet, testSet[x], k) # 找到各个测试集实例最近的邻居 101 result = getResponse(neighbors) 102 predictions.append(result) 103 print('> predicted=' + repr(result) + ',actual=' + repr(testSet[x][-1])) 104 accuracy = getAccuracy(testSet, predictions) 105 print('Accuracy: ' + repr(accuracy) + '%') 106 107 108 if __name__ == '__main__': 109 main()