机器学习中的数据及任务

什么是机器学习?

什么是数据?

以鸢尾花数据为例:

 其中包含四个主要的信息(萼片(sepal)的长宽、花瓣(petal)的长宽)

根据以上数据大致可以分为三个种类,Iris-Setosa、Iris-Versicolour、Iris-Virginica

其数据的结构大致如下:

 现有以下数据为例:

此处使用数字0,1,2在机器学习中分别简化表示三种类型。

上面示例的数据整体叫数据集(data set),

其中每一行数据都被称为一个样本(sample),

除最后一列,每列表达样本的一个特征(feature)(例子中有4个特征),

最后一列,称为标记(label)

现将所有的特征表示为矩阵X,将所有标记表示为向量y

那么第i个样本行写作X ⁽ ⁱ ⁾(称作特征向量,一般为列向量)

 现将所有特征向量转置即可得到整个数据集

第i个样本的第j个特征值写作X ⁽ ⁱ ⁾ⱼ(i为上标,j为下标),

第i个样本的标记写作y⁽ ⁱ ⁾。

样本数据的本质就是在所有特征所组成的一个空间中的点,这个空间称为特征空间(feature space)

分类任务的本质就是在特征空间中的切分,下图为两维的示例,在高维空间同理。

此外,特征也可以是抽象的,比如MNIST数据集中的手写数字,其中每个数字图像中的每一个像素点都是特征。

任务是什么?

其中监督学习的任务如下

  • 分类任务
  1. 二分类(判断是否为垃圾邮件)
  2. 多分类(数字识别,图像识别)
  3. 多标签分类(识别图片中的多类元素)
  • 回归任务
  1. 结果为一个连续数字的值,而不是某个类别,如判断房屋价格(xx万)
  2. 一些情况下,回归任务可以简化为分类任务
posted @ 2022-01-16 17:55  Kyle0418  阅读(137)  评论(0编辑  收藏  举报