机器学习与数据
2001年Bank和Bill做了这么一个实验
区分容易混淆的词,如(to, two, too)
比如:For breakfast I ate two eggs.
他们用了不同的算法:
- Perceptron (Logistic regression)
- Winnow
- Memory-based
- Naïve Bayes
并绘制了下图
可以看到,不同算法得到差不多的性能。但是它们有一个共同点:随着数据的增加,算法性能都在提升。
于是它们得到结论:It's not who has the best algorithm that wins. It's who has the most data.
这个结论有时是对的,有时又是不对的
合理运用大量数据
使用有很多参数的学习算法(比如,有很多特征的逻辑回归或线性回归;有很多隐含层的神经网路)
大量数据不太容易出现过拟合
遇到问题从以下两方面考虑
- 人可以达到什么程度
- 比如,对于“For breakfast I ate ___ eggs.”问题,一个英语好的人就可以解答的很好;对于“只给出房子的大小来预测房价”,一个很有经验的买房者也很难给出答案。
- 我们能获得很多数据吗?