[DeeplearningAI笔记]第三章1.1-1.3查准率/查全率/F1分数
[DeeplearningAI笔记]第三章1.1-1.3查准率/查全率/F1分数
觉得有用的话,欢迎一起讨论相互学习~
1.1 什么是ML策略
机器学习策略简介
情景模拟
- 假设你正在训练一个分类器,你的系统已经达到了90%准确率,但是对于你的应用程序来说还不够好,此时你有很多的想法去继续改善你的系统
- 收集更多训练数据
- 训练集的多样性不够,收集更多的具有多样性的实验数据和更多样化的反例集.
- 使用梯度下降法训练更长的时间
- 尝试一个不同的优化算法,例如Adam优化算法.
- 尝试更大的神经网络或者更小的神经网络
- 尝试dropout
- 尝试L2正则化
- 改变神经网络的结构:
- 修改激活函数
- 改变隐藏单元的数目
- 如果你使用了错误的方向,不仅会浪费大量的时间,而且不会有所改善.
课程目的
- 希望在这门课中,教一些策略,分析机器学习中遇到的问题,指引朝着最有希望的方向前进.
1.2 Orthogonalization正交化
正交化
- 正交性或正交性是一种系统设计属性,它确保修改指令或算法的组成部分不会对系统的其他组件产生或传播副作用。独立地验证算法变得更加容易,它减少了测试和开发的时间。
当一个受监督的学习系统在设计时,这四个假设必须是正确的和正交的。- 成本函数在训练集上有好的表现
- 对于一些应用而言,这可能意味着要达到人类水平的表现
- 如果它不合适,那么使用更大的神经网络或者切换到更好的优化算法可能会有所帮助。
- 成本函数在开发集上有好的表现
- 如果不合适,规范化或使用更大的训练集可能会有所帮助。
- 成本函数在测试集上有好的表现
- 如果不合适,使用更大的开发集可能会有所帮助。
- 在实际系统中表现良好
- 如果性能不好,开发测试集分布设置不正确,或者成本函数测量的尺度不正确.
1.3 单一数字评估指标
Single number evaluation metric
单实数评估指标
- 无论是在调整超参数,或者尝试不同的机器学习的算法,或者搭建机器学习系统时尝试不同手段,你会发现,如果你有一个单实数评估指标,你的进展会快很多,它可以快速的告诉你,新尝试的手段比之前的手段好还是坏.
机器学习系统的迭代过程
- 我们通常有一个想法,编程序,跑实验,看看效果如何.然后使用这些试验结果来改善你的想法.然后继续走这个循环,不断改进你的算法.
查准率,查全率,F1分数
- 假设现在你需要识别猫的图片,并且你已经开发出了A和B两个分类器.评估你的分类器的方式是观察他的查准率(precesion)和查全率(recall)
-
Precision 查准率 在你的分类器标记为猫的例子中,有多少真的是猫.95% 的机会表示当你的分类器认为这是一只猫时,95%的机会分类正确.
-
Recall 查全率 在所有真的是猫的图片中,你的分类器正确识别出的图片的百分比,实际为猫的图片中,被正确划分出类的个数.
-
事实证明,虽然使用查准率和查全率来评估一个分类器是十分合理的,但是查准率和查重率之间往往需要一个折衷.
- 例如如果出现A分类器在查全率上表现得更好,但是B分类器在查准率上表现得更好.
-
F1分数 在机器学习的文献中,权衡查准率P和查全率R的方法是计算P和R的调和平均值(harmonic mean)即F1分数.
\[F1=\frac{2}{\frac{1}{P}+\frac{1}{R}}
\]
平均误差
- 对于同一模型,在不同的状态下也许会产生不同的误差,这时候我们可以使用平均误差这个单一数值评估指标评价机器学习模型.
Summary
- 很多机器学习团队都是这样,有一个开发集,用于测量查准率和查全率还会定义一个单一数值评估指标(单实数评估指标)能让你快速从众多分类器中挑选合适的分类器.加速机器学习算法的迭代过程.