[笔记]《算法图解》第十章 K最近邻算法
K最近邻算法
简称KNN,计算与周边邻居的距离的算法,用于创建分类系统、机器学习等。
算法思路:首先特征化(量化) 然后在象限中选取目标点,然后通过目标点与其n个邻居的比较,得出目标的特征。
余弦相似度
在实际工作中,经常使用余弦相似度(cosine similarity)。假设有两位品味类似的用户,但其中一位打分时更
保守。他们都很喜欢Manmohan Desai的电影Amar Akbar Anthony,但Paul给了5星,而Rowan只
给4星。如果你使用距离公式,这两位用户可能不是邻居,虽然他们的品味非常接近。
机器学习之ORC
关键点是要浏览大量数字图像,并提取数字的特征,这在机器学习中称为训练
如何自动识别出这个数字是什么呢?可使用KNN。
(1) 浏览大量的数字图像,将这些数字的特征提取出来。
(2) 遇到新图像时,你提取该图像的特征,再找出它最近的邻居都是谁!