摘要: KNN补充: 1、K值设定为多大? k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。 (对距离加权,可以降低k值设定的影响) k值通常是采用交叉检验来确定(以k=1为基准) 经验规则:k一般低于训练样本数的平方根 2、类别如何判定最合适? 加权投票法更恰当一些。而具体如何 阅读全文
posted @ 2017-07-11 20:51 ahu-lichang 阅读(548) 评论(0) 推荐(0) 编辑
摘要: 需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别; 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多。 ♦ 数据集包括数字0-9的手写体。 ♦每个数字大约有200个样本。 ♦每个样本保持在一个txt文件中。 ♦手写体图像本身的大小是32x32的二值图,转换到t 阅读全文
posted @ 2017-07-11 20:44 ahu-lichang 阅读(11577) 评论(0) 推荐(0) 编辑
摘要: KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1、KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 机器学习,算法本身不是最难的,最难的是: 1、数学建模:把业务中的特性抽象成向量的过程; 2、选取适合模型的数 阅读全文
posted @ 2017-07-11 15:58 ahu-lichang 阅读(46707) 评论(4) 推荐(2) 编辑