Fork me on GitHub

机器学习部分关键词解释

1. 概述

(1)机器学习功能:从已有的数据中通过一定的方式方法学习产生一个能适应相同分布的新数据的模型。

(2)解决的主要问题:分类(离散值)、回归(连续值)。分类的应用场景:比如苹果、香蕉和梨子,无法量化,那么对它们采取一定的编码方式进行分类。回归的应用场景:标签具有具体的连续值,比如预测一个人身高与年龄的关系,身高就是连续值,这个过程就是回归。

(3)过程:通过对已有的数据特征矩阵分析,然后用一种方法去产生隐含的模型参数。(狭义地讲:可以看做用一个模型去拟合(拟合属于回归)已有的数据的过程,比如用函数\(y=kx+b\)拟合二位数据点)

2. 关键词解释

关键词:模型、凸优化、特征矩阵、标签、训练集、测试集、损失函数(loss)、求解器(solver)、激活函数(Activation)、惩罚项、欠拟合、过拟合、正则化。

模型:通俗地讲就是函数与操作的叠加,一个将输入进行操作,然后得到一个或一组输出值。

凸优化(重要):虽然本身单独已经是一个内容,但是机器学习的过程是建立在凸优化基础上的。优化理论三要素:目标函数、约束条件、自变量。举个简单的例子,二维线性规划,目标函数和约束条件都是二元线性方程,自变量即x。而凸优化简单来讲就是保证这个求解在这个约束范围内不存在驻点解(多极值点)。

特征矩阵:数据的存在形式,一般以一个矩阵\(X_{m\times n}\)形式存在,m为数据的个数,n为数据的特征维度(个数)。

标签:一般以一个向量\(y_{m\times 1}\)表示,表示一组特征对应的值,这个y如果是离散值(类别),那么一般称其为标签。

训练集:需要训练的数据,通常情况下即上文提到的\(X_{m\times n}\)\(y_{m\times 1}\)组成的m*(n+1)的矩阵。

测试集:模型经过训练集训练,已经得到了模型参数,需要进行验证的数据集\(D_{m\times n}\)数据。

损失函数:由于机器学习的数据矩阵形式基本很固定,然后需要确定一个模型函数假定为\(f\),训练的目标是这个\(f\)拟合得到的\(y_{m\times 1}\)和训练集数据对应的\(y_{m\times 1}\)差距尽可能小,所以目标函数即是\(min\sum_i(f(x_i)-y_i)^2)\),也可以写作\(||f(X)-y||_2^2\),这里\(f(x_i)-y_i\)是一行数据的偏差,平方之后求和就是全部数据的偏差,这里使用的是最小二乘的形式,当然损失函数不止一种形式,还有交叉熵,均方差等等,需根据实际情况选取。

求解器:得到了目标函数和约束条件之后,也得知了求解的对象之后,就成为了典型的有约束优化问题,这种问题往往没有办法直接得到符号解,通常采用数值方法来求解。求解器就是求解方法,一般指的就是梯度下降法、坐标下降法、拟牛顿法等等方法。经过一定次数的迭代之后会得到一个极值点(不一定是最值点)。

激活函数:主要在神经网络模型里面出现,因为神经网络发展出了深度学习,所以单独拿出来提一下,用来判断神经节点是否激活的函数,一般来讲,0为死,1为激活。激活函数的样式有很多,不具体展开。

惩罚项:主要用在目标函数中,常见于优化理论里,通俗地讲就是修正系数/函数,原始函数存在着各种不足,需要在原始函数后加/乘/取对数/指数/等等操作来修正这个目标函数的准确性。

欠拟合:指的是模型非线性表达能力不足时产生的现象,也表明模型的线性程度较高,通俗地讲就是不能很好拟合原始数据集。

过拟合:指的是模型非线性表达能力过强时产生的现象,具体表现为模型在训练集上表现非常好,但是在测试集上表现很差。

正则化:属于数据预处理的范畴,很多时候,因为有了一些先验经验,人们希望对数据进行一定的预处理得到一些结果,于是用已有的模型正则式直接套在数据集上,看看效果如何。此外机器学习的惩罚项往往和求解的参数直接相关,故惩罚项也经常叫做正则项。

posted @ 2018-12-10 18:51  sei  阅读(756)  评论(0编辑  收藏  举报