摘要: 再分类任务下,预测结果和真实情况之间存在四种不同的组合,这四种组合构成了混淆矩阵。 举个例子,看下图。当真实情况是猫,预测结果也是猫的时候,这个时候定义为真正例;当真实情况是猫,而预测结果不是猫的时候定义为伪反例子; 当真实情况不是猫,而预测结果是猫时定义为伪正例;当真实情况不是猫预测结果也不是猫时 阅读全文
posted @ 2019-11-15 20:35 牛公的跑奔 阅读(1468) 评论(0) 推荐(0) 编辑
摘要: 学习这个算法前,得知道一些概率论上面得知识。 因此,使用朴素贝叶斯算法前,首先需要保证各个特征之间要保持相互独立。 API:sklearn.naive_bayes.MultinomialNB alpha时拉普拉斯平滑系数,默认为1。其作用时防止分类得时候类别为0时导致统计结果为0。 上个例子: 读取 阅读全文
posted @ 2019-11-15 16:01 牛公的跑奔 阅读(340) 评论(0) 推荐(0) 编辑
摘要: TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF指的是:term frequency :词的频率 IDF指的是:inverse document fre 阅读全文
posted @ 2019-11-15 15:49 牛公的跑奔 阅读(281) 评论(0) 推荐(0) 编辑
总访问量:AmazingCounters.com