摘要:
改善你的模型的表现(Improving your model performance) 想要让一个监督学习算法达到实用,基本上希望或者假设你可以完成两件事情。 首先,你的算法对训练集的拟合很好,这可以看成是你能做到可避免偏差很低。还有第二件事你可以做好的是,在训练集中做得很好,然后推广到开发集和测试 阅读全文
摘要:
超过人的表现( Surpassing human- level performance) 假设你有一个问题,一组人类专家充分讨论辩论之后,达到 0.5%的错误率,单个人类专家错误率是 1%,然后你训练出来的算法有 0.6%的训练错误率, 0.8%的开发错误率。所以在这种情况下,可避免偏差是多少?这个 阅读全文
摘要:
理解人的表现( Understanding human-level performance) 假设你要观察这样的放射科图像,然后作出分类诊断,假设一个普通的人类,未经训练的人类,在此任务上达到 3%的错误率。普通的医生,也许是普通的放射科医生,能达到 1%的错误率。经验丰富的医生做得更好,错误率为 阅读全文
摘要:
可避免偏差( Avoidable bias) 你得知道人类水平的表现是怎样的,可以确切告诉你算法在训练集上的表现到底应该有多好,或者有多不好。 我们经常使用猫分类器来做例子,比如人类具有近乎完美的准确度,所以人类水平的错误是 1%。在这种情况下,如果您的学习算法达到 8%的训练错误率和 10%的开发 阅读全文
摘要:
为什么是人的表现?( Why human-level performance?) 在过去的几年里,更多的机器学习团队一直在讨论如何比较机器学习系统和人类的表现,为什么呢? 我认为有两个主要原因: 首先是因为深度学习系统的进步,机器学习算法突然变得更好了。在许多机器学习的应用领域已经开始见到算法已经可 阅读全文
摘要:
什么时候该改变开发/测试集和指标?(When to change dev/test sets and metrics) 假设你在构建一个猫分类器,试图找到很多猫的照片,向你的爱猫人士用户展示,你决定使用的指标是分类错误率。所以算法A和B分别有 3%错误率和 5%错误率,所以算法A似乎做得更好。 但是 阅读全文
摘要:
训练/开发/测试集划分( Train/dev/test distributions) 开发(dev)集也叫做(development set),有时称为保留交叉验证集(hold out cross validation set)。然后,机器学习中的工作流程是,你尝试很多思路,用训练集训练不同的模型, 阅读全文
摘要:
满足和优化指标( Satisficing and optimizing metrics) 要把你顾及到的所有事情组合成单实数评估指标有时并不容易,在那些情况里,设立满足和优化指标是很重要的。 假设你已经决定你很看重猫分类器的分类准确度,这可以是${F_1}$分数或者用其他衡量准确度的指标。但除了准确 阅读全文
摘要:
单一数字评估指标( Single number evaluation metric) 无论你是调整超参数,或者是尝试不同的学习算法,或者在搭建机器学习系统时尝试不同手段,你会发现,如果你有一个单实数评估指标,你的进展会快得多,它可以快速告诉你,新尝试的手段比之前的手段好还是差。 我们来看一个例子,你 阅读全文
摘要:
正交化(Orthogonalization) 搭建建立机器学习系统的挑战之一是,你可以尝试和改变的东西太多太多了。比如说,有那么多的超参数可以调。我留意到,那些效率很高的机器学习专家有个特点,他们思维清晰,对于要调整什么来达到某个效果,非常清楚,这个步骤我们称之为正交化。 正交化的概念是指,你可以想 阅读全文