摘要:
定位数据不匹配(Addressing data mismatch) 数据不匹配的问题没有完全系统的解决方案,但我们可以看看一些可以尝试的事情。如果我发现有严重的数据不匹配问题,我通常会亲自做错误分析,尝试了解训练集和开发测试集的具体差异。技术上,为了避免对测试集过拟合,要做错误分析,你应该人工去看开 阅读全文
摘要:
不匹配数据划分的偏差和方差(Bias and Variance with mismatched data distributions) 我们继续用猫分类器为例,我们说人类在这个任务上能做到几乎完美,所以贝叶斯错误率或者说贝叶斯最优错误率,我们知道这个问题里几乎是 0%。所以要进行错误率分析,你通常需 阅读全文
摘要:
在不同的划分上进行训练并测试( Training and testing on different distributions) 在深度学习时代,越来越多的团队都用来自和开发集、测试集分布不同的数据来训练,这里有一些微妙的地方,一些最佳做法来处理训练集和测试集存在差异的情况,我们来看看。 假设你在开 阅读全文
摘要:
快速搭建你的第一个系统,并进行迭代( Build your first system quickly, then iterate) 如果你正在开发全新的机器学习应用,我通常会给你这样的建议,你应该尽快建立你的第一个系统原型,然后快速迭代。 所以我希望这些策略有帮助,如果你将机器学习算法应用到新的应用 阅读全文