[斯坦福大学2014机器学习教程笔记]第二章-模型描述
我们第一个学习算法是线性回归算法,在这节中,你会看到这个算法的概况,更重要的是你会了解整个监督学习过程。
下面我们来举一个例子,我们要根据不同房屋尺寸所售出的价格,画出我的数据集。
比方说,如果你朋友的房子是1250平方尺大小,你要告诉他这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的价格卖掉这个房子。
这显然是一个监督学习算法的例子。因为每一个例子都有一个“正确的答案”。也就是说,我们知道了数据集中卖出的房子实际的大小以及价格。而且,它还是一个回归问题的例子。回归指的是我们预测一个具体的数值输出(在这个例子中也就是价格)。
注意:另一种最常见的监督学习问题被称为分类问题。我们用它来预测离散值的输出。比如我们观察肿瘤并试图判断它是良性还是恶性,这是只有0和1的离散输出。
更正式一点说,在监督学习里,我们有一个数据集,它被称为一个训练集。
以住房价格为例,我们有一个房价的训练集,我们的工作是从这个数据中学习如何预测房价。
让我们来定义一些课程中会用到的符号。
- 用小写m表示训练样本的数量。在这个例子中,如果我们有47行,就意味着我们有47个训练样本,则m=47。
- 用小写x表示输入变量或者说特征。在这个例子中,x为房子的面积。
- 用小写y表示输出变量,也就是我要预测的目标变量。在这个例子中,y为住房价格。
- 用(x,y)表示一个训练样本。表格中的一行表示一个训练样本。
- 用(x(i),y(i))表示第i个训练样本(一个特定的样本)。注意这个i并不是幂指数,这只是训练集的一个索引,指的是这个表格中的第i行。在这个例子中,x(1)=2104,y(1)=460。
接下来我们看一下监督学习算法是怎么样工作的。
首先,我们向学习算法提供训练集。比如我们的房价训练集。
学习算法的任务是输出一个函数,通常是用小写h表示。h代表假设函数。h是一个引导从x得到y的函数。在这个例子中,假设函数的作用就是把房子大小作为输入变量x,它会试着输出相应房子的价格预测值y。
当我们设计一个学习算法时,下一个需要做的事是决定怎么表示这个假设函数h,所以接下来几节我们将学习最初的假设函数。
怎么表达h?一种表达方式为hθ(x)=θ0+θ1x。
这种模型被称为线性回归。这个例子是一个一元线性回归。又叫单变量线性回归。