摘要:
K-近邻(KNN)算法是解决分类问题的算法。既可以解决二分类,也可以解决多分类问题。 其实它也可以解决回归问题。 K-近邻原理: 某个样本的类别,由与之最相近的K个邻居投票所决定。 例子: 现在有一个样本集,其中所有数据都已经标记好类别,假设有一个未知类别的样本x需要进行分类。 在离这个样本距离最近 阅读全文
摘要:
前面 特征缩放 | 归一化和标准化 (上) 简单介绍了 什么是特征缩放以及归一化,这里主要是涉及标准化 和一些特征缩放的总结。 什么是标准化? 标准化也是特征缩放的另外一种方式。它把数据归一到均值为0,方差为1的分布中。 如: 有一组样本 (10个样本*3个特征) 将其标准化之后 此时,特征1的均值 阅读全文
摘要:
方差(variance): 变量与其均值的差的平方和除以(变量数+1)。 如有一组数据: [1,2,3,4,5], 其均值就是 (1+2+3+4+5) / 5 = 3 所以其方差为: ((1-3)^2 + (2-3)^2 +(3-3)^2 + (4-3)^2 + (5-3)^2) /( 5+1) = 阅读全文