摘要:
在构建分类器,经过大量数据训练测试后,该如何评估这个分类器的效果?这里总结几个常用的衡量分类器表现的指标。 1、Accuracy 对于一份测试集,Accuracy衡量了分类预测label的准确度。 \(Accuracy = \frac{正确标记的测试数据的数量}{总测试数据的数量}\) 例如,预测l 阅读全文
摘要:
KNN(K-Nearest Neighbour)算法应该是一个比较简单常用的分类方法了。 其大致思路是,假设我们数据中有m个label,对于新数据(测试数据),计算它与其他数据点的“距离”,选择“最近”的k个数据,然后根据这k个数据中最多的label给新数据标记。这里的距离也是有很多选择方式,如欧氏 阅读全文
摘要:
朴素贝叶斯(Naive Bayes)是一种基于概率理论的监督学习算法。 这里提下贝叶斯公式, \(P(C,X) = P(C|X)P(X)=P(X|C)P(C)\) \(P(C|X) = \frac{P(X|C)P(C)}{P(X)}\) 现在我希望我预测的 \(\hat{C} = argmax_{c 阅读全文