谷歌机器学习速成课程
[框架:关键机器学习术语 | 机器学习速成课程 | 谷歌开发者](https://developers.google.com/machine-learning/crash-course/framing/ml-terminology )]
框架:关键机器学习术语
预计时间: 8 分钟
什么是(监督)机器学习?简而言之,它是以下内容:
- ML 系统学习如何组合输入以对从未见过的数据产生有用的预测。
让我们探索基本的机器学习术语。
标签
标签是我们预测的东西——简单线性回归中的变量y
。标签可以是小麦的未来价格、图片中显示的动物种类、音频剪辑的含义,或者任何东西。
特征
特征是一个输入变量——x
简单线性回归中的变量。一个简单的机器学习项目可能使用单个特征,而更复杂的机器学习项目可能使用数百万个特征,具体如下:
在垃圾邮件检测器示例中,功能可能包括以下内容:
- 电子邮件文本中的单词
- 寄件人地址
- 发送电子邮件的时间
- 电子邮件包含短语“一个奇怪的技巧”。
例子
一个示例是数据的特定实例x。(我们 用粗体表示x表示它是一个向量。)我们将示例分为两类:
- 标记示例
- 未标记的示例
带标签的示例包括特征和标签。那是:
labeled examples: {features, label}: (x, y)
使用带标签的示例来训练模型。在我们的垃圾邮件检测器示例中,标记示例是用户明确标记为“垃圾邮件”或“非垃圾邮件”的单个电子邮件。
例如,下表显示了来自 包含加利福尼亚房价信息的数据集中的 5 个标记示例:
住房中位年龄 (特征) | totalRooms (功能) | 总卧室 (特征) | 中值房屋价值 (标签) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
未标记的示例包含特征但不包含标签。那是:
unlabeled examples: {features, ?}: (x, ?)
以下是来自同一住房数据集的 3 个未标记示例,其中不包括medianHouseValue
:
住房中位年龄 (特征) | totalRooms (功能) | 总卧室 (特征) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
一旦我们用标记的例子训练了我们的模型,我们就可以使用该模型来预测未标记例子的标签。在垃圾邮件检测器中,未标记的示例是人类尚未标记的新电子邮件。
楷模
模型定义了特征和标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”密切相关。让我们重点介绍一下模型生命的两个阶段:
-
训练意味着创建或学习模型。也就是说,您向模型展示标记示例,并使模型逐渐学习特征和标签之间的关系。
-
推理意味着将训练好的模型应用于未标记的示例。也就是说,您使用经过训练的模型进行有用的预测 (
y'
)。例如,在推理过程中,您可以预测medianHouseValue
新的未标记示例。
回归与。分类
回归模型预测连续值。例如,回归模型做出的预测回答如下问题:
-
加州的房子值多少钱?
-
用户点击此广告的概率是多少?
分类模型预测离散值。例如,分类模型做出的预测回答如下问题:
-
给定的电子邮件是垃圾邮件还是不是垃圾邮件?
-
这是狗、猫还是仓鼠的图像?