摘要:
常用Linux命令:cd, cp, ls, mkdir, mv, rm, su, uname 阅读全文
摘要:
“/”:表示根目录,在windows系统下表示某个盘的根目录,如“E:\”;
“./”:表示当前目录;(表示当前目录时,也可以去掉“./”,直接写文件名或者下级目录)
“../”:表示上级目录。 阅读全文
摘要:
在将sklearn中的模型持久化时,使用sklearn.pipeline.Pipeline(steps, memory=None)将各个步骤串联起来可以很方便地保存模型。 阅读全文
摘要:
推荐一篇英文的博客:
8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset
一个不平衡的两类数据集,使用准确率(accuracy)作为模型评价指标,最后得到的准确率很高,感觉结果很棒大功告成了,但再看看混淆矩阵(confusion matrix)或者少数类(样本数量少的这一类)的召回率(recall),你的心可能就拔凉拔凉的。你可能会发现少数类的样本几乎完全分错,即模型将样本基本预测为了多数类(样本数量多的一类)。 阅读全文
摘要:
准确率、精确率(查准率)、召回率(查全率)、F1值、ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前四者可以从混淆矩阵中直接计算得到,AUC值则要通过ROC曲线进行计算,而ROC曲线的横纵坐标又和混淆矩阵联系密切,所以在了解这些评价指标之前,先知道什么是混淆矩阵很有必要,也方便记忆。 阅读全文