谷歌机器学习速成课程

[框架：关键机器学习术语 | 机器学习速成课程 | 谷歌开发者](https://developers.google.com/machine-learning/crash-course/framing/ml-terminology )]

框架：关键机器学习术语

预计时间： 8 分钟

什么是（监督）机器学习？简而言之，它是以下内容：

让我们探索基本的机器学习术语。

特征是一个输入变量——x简单线性回归中的变量。一个简单的机器学习项目可能使用单个特征，而更复杂的机器学习项目可能使用数百万个特征，具体如下：

x_{1}, x_{2}, . . . x_{N}

在垃圾邮件检测器示例中，功能可能包括以下内容：

一个示例是数据的特定实例x。（我们用粗体表示x表示它是一个向量。）我们将示例分为两类：

带标签的示例包括特征和标签。那是：

  labeled examples: {features, label}: (x, y)

使用带标签的示例来训练模型。在我们的垃圾邮件检测器示例中，标记示例是用户明确标记为“垃圾邮件”或“非垃圾邮件”的单个电子邮件。

例如，下表显示了来自包含加利福尼亚房价信息的数据集中的 5 个标记示例：

住房中位年龄（特征）	totalRooms （功能）	总卧室（特征）	中值房屋价值（标签）
15	5612	1283	66900
19	7650	1901	80100
17	720	174	85700
14	1501	337	73400
20	1454	326	65500

未标记的示例包含特征但不包含标签。那是：

  unlabeled examples: {features, ?}: (x, ?)

以下是来自同一住房数据集的 3 个未标记示例，其中不包括medianHouseValue：

一旦我们用标记的例子训练了我们的模型，我们就可以使用该模型来预测未标记例子的标签。在垃圾邮件检测器中，未标记的示例是人类尚未标记的新电子邮件。

模型定义了特征和标签之间的关系。例如，垃圾邮件检测模型可能会将某些特征与“垃圾邮件”密切相关。让我们重点介绍一下模型生命的两个阶段：

训练意味着创建或学习模型。也就是说，您向模型展示标记示例，并使模型逐渐学习特征和标签之间的关系。
推理意味着将训练好的模型应用于未标记的示例。也就是说，您使用经过训练的模型进行有用的预测 ( y')。例如，在推理过程中，您可以预测medianHouseValue新的未标记示例。

回归模型预测连续值。例如，回归模型做出的预测回答如下问题：

分类模型预测离散值。例如，分类模型做出的预测回答如下问题：

posted @ 2022-01-28 15:03 ministep88 阅读(102) 评论(0) 编辑收藏举报

刷新页面返回顶部