摘要:
一句话总结K均值算法 核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定。 k均值算法是一种无监督的聚类算法。算法将每个样本分配到离它最近的那个类中心所代表的类,而类中心的确定又依赖于样本的分配方案。这是一个先有鸡还是先有蛋的问题。 在实现时,先随机初始化每个类的类中心,然 阅读全文
摘要:
一句话总结kNN算法 核心:模板匹配,将样本分到离它最相似的样本所属的类。 kNN算法本质上使用了模板匹配的思想。要确定一个样本的类别,可以计算它与所有训练样本的距离,然后找出和该样本最接近的k个样本,统计这些样本的类别进行投票,票数最多的那个类就是分类结果。下图是kNN算法的示意图: 在上图中有红 阅读全文
摘要:
一句话总结决策树 核心:一组嵌套的判定规则。 决策树在本质上是一组嵌套的if-else判定规则,从数学上看是分段常数函数,对应于用平行于坐标轴的平面对空间的划分。判定规则是人类处理很多问题时的常用方法,这些规则是我们通过经验总结出来的,而决策树的这些规则是通过训练样本自动学习得到的。下面是一棵简单的 阅读全文
摘要:
一句话总结贝叶斯分类器 核心:将样本判定为后验概率最大的类。 贝叶斯分类器直接用贝叶斯公式解决分类问题。假设样本的特征向量为x,类别标签为y,根据贝叶斯公式,样本属于每个类的条件概率(后验概率)为: 分母p(x)对所有类都是相同的,分类的规则是将样本归到后验概率最大的那个类,不需要计算准确的概率值, 阅读全文