网站更新内容:请访问: https://bigdata.ministep.cn/

谷歌机器学习速成课程

[框架:关键机器学习术语 | 机器学习速成课程 | 谷歌开发者](https://developers.google.com/machine-learning/crash-course/framing/ml-terminology )]

框架:关键机器学习术语

 

 

预计时间: 8 分钟

什么是(监督)机器学习?简而言之,它是以下内容:

  • ML 系统学习如何组合输入以对从未见过的数据产生有用的预测。

让我们探索基本的机器学习术语。

标签

标签是我们预测的东西——简单线性回归中的变量y标签可以是小麦的未来价格、图片中显示的动物种类、音频剪辑的含义,或者任何东西。

特征

特征是一个输入变量——x简单线性回归中的变量。一个简单的机器学习项目可能使用单个特征,而更复杂的机器学习项目可能使用数百万个特征,具体如下:

 

x1,x2,...xN

 

在垃圾邮件检测器示例中,功能可能包括以下内容:

  • 电子邮件文本中的单词
  • 寄件人地址
  • 发送电子邮件的时间
  • 电子邮件包含短语“一个奇怪的技巧”。

例子

一个示例是数据的特定实例x(我们 用粗体表示x表示它是一个向量。)我们将示例分为两类:

  • 标记示例
  • 未标记的示例

带标签的示例包括特征和标签。那是:

 
  labeled examples: {features, label}: (x, y)

使用带标签的示例来训练模型。在我们的垃圾邮件检测器示例中,标记示例是用户明确标记为“垃圾邮件”或“非垃圾邮件”的单个电子邮件。

例如,下表显示了来自 包含加利福尼亚房价信息的数据集中的 5 个标记示例:

住房中位年龄
(特征)
totalRooms
(功能)
总卧室
(特征)
中值房屋价值
(标签)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

标记的示例包含特征但不包含标签。那是:

 
  unlabeled examples: {features, ?}: (x, ?)

以下是来自同一住房数据集的 3 个未标记示例,其中不包括medianHouseValue

住房中位年龄
(特征)
totalRooms
(功能)
总卧室
(特征)
42 1686 361
34 1226 180
33 1077 271

一旦我们用标记的例子训练了我们的模型,我们就可以使用该模型来预测未标记例子的标签。在垃圾邮件检测器中,未标记的示例是人类尚未标记的新电子邮件。

楷模

模型定义了特征和标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”密切相关。让我们重点介绍一下模型生命的两个阶段:

  • 训练意味着创建或学习模型。也就是说,您向模型展示标记示例,并使模型逐渐学习特征和标签之间的关系。

  • 推理意味着将训练好的模型应用于未标记的示例。也就是说,您使用经过训练的模型进行有用的预测 ( y')。例如,在推理过程中,您可以预测medianHouseValue新的未标记示例。

回归与分类

回归模型预测连续值。例如,回归模型做出的预测回答如下问题:

  • 加州的房子值多少钱?

  • 用户点击此广告的概率是多少?

分类模型预测离散值。例如,分类模型做出的预测回答如下问题:

  • 给定的电子邮件是垃圾邮件还是不是垃圾邮件?

  • 这是狗、猫还是仓鼠的图像?

posted @ 2022-01-28 15:03  ministep88  阅读(102)  评论(0编辑  收藏  举报
网站更新内容:请访问:https://bigdata.ministep.cn/