【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 11—Machine Learning System Design 机器学习系统设计

Lecture 11—Machine Learning System Design

11.1 垃圾邮件分类

本章中用一个实际例子：垃圾邮件Spam的分类来描述机器学习系统设计方法。首先来看两封邮件，左边是一封垃圾邮件Spam，右边是一封非垃圾邮件Non-Spam：

垃圾邮件有很多features。如果我们想要建立一个Spam分类器，就要进行有监督学习，将Spam的features提取出来，而希望这些features能够很好的区分Spam。

事实上，对于spam分类器，通常选取spam中词频最高的100个词来做feature。
为了构建分类器算法，可能有很多策略：
1. 收集更多的数据,让我们有更多的垃圾邮件和非垃圾邮件的样本
2. 基于邮件的路由信息开发一系列复杂的特征
3. 基于邮件的正文信息开发一系列复杂的特征,包括考虑截词的处理
4. 为探测刻意的拼写错误(把 watch 写成 w4tch)开发复杂的算法

11.2 误差分析 Error Analysis

构建一个学习算法的推荐方法为:
1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势

例如下图中，对100个分类错误的邮件进行人工分析，左边区分了它们的类型分布，右边分析没有被正确分类的原因。

在误差分析的时候，不能单纯依靠直觉gut feeling ，而是用数字体现。

例如，对于discount/discounts/discounted/discounting 是否被视为都含有discount这个feature。如果看作含有这个feature，结果有3%的error；如果不看做有这个feature，则有5%的error。以此进行比较。
注：使用Porter stemmer 这种软件可以合并类似的单词，但是也可能引发错误。

11.3 类偏斜的误差度量 Error Metrics for Skewed Classes

Skewed Classes：一个分类问题，结果仅有两类y=0和y=1，其中一类样本非常多、另一类非常少。
对于偏斜数据集，如果单纯考虑准确率accuracy，会导致有时候模型预测的结果，还不如全部判断为1或者全部判断0 的结果好。所以需要引入另外一些辅助度量指标

考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况：
1. 正确肯定(True Positive,TP)：预测为真,实际为真
2. 正确否定(True Negative,TN)：预测为假,实际为假
3. 错误肯定(False Positive,FP)：预测为真,实际为假
4. 错误否定(False Negative,FN)：预测为假,实际为真

这样就可以建立一个Error Metrics（下图左），并定义precision和recall，如下图所示：