机器学习之模型选择与改进

前言

以下内容是个人学习之后的感悟，转载请注明出处~

　　经过前几篇博客的学习，我们了解到了线性回归、逻辑回归、神经网络等的一些知识。然而，到底该怎么开发一个

机器学习系统或者选择并改进一个学习系统呢？这应该是很多初学者的困惑之处。那么本文会带领你更一步了解如何更

好地使用机器学习。

　　由于内容较多，做以下目录，方便浏览：

评价假设函数
模型选择
模型优化
不平衡数据学习模型的评估

评价假设函数

　　在设计一个好的机器学习系统之前，我们首先要学会评价一个机器学习系统的好坏，即评价假设函数的好坏。

　　那么我们应该如何来评价呢？首先，我们先选择一个原始样本数据，70%作为训练集，30%作为测试集。用70%的

训练集求出权重参数θ，再用30%的测试集对求出的学习模型进行测试，如下图所示。

　　然后使用误分类率（0/1错分率）法，对学习模型进行误差评估，公式如下：

模型选择

　　不管是用线性回归、逻辑回归算法，还是用神经网络等算法，模型的选择对于达到的效果是至关重要的。相同的算

法，不同的模型，结果也可能是千差万别的。所以，接下来要介绍的便是如何选择模型。

　　以多项式回归算法为例，对于一个样本集，我们可以列很多阶的假设函数，然后在其中寻找最合适的。在这里，把样

本集分为3个子集，分别是60%训练集、20%验证集、20%测试集。下面只列出了1到10阶的单特征多项式，分别用训练

集对它们进行训练，然后用验证集计算代价函数，取其最小值得多项式作为模型。

模型优化

　　选好模型并不意味着能够顺利地得出我们想要的结果，因为特征数量、样本数量、正则化参数等等都会对模型最终得

到的结果产生影响。那么影响到底有多大？影响是从那些特征可以看出？用什么方法可以改善模型？这些都是接下来要说

明的内容，请继续往下看。

　　首先，我们要找出能够表明模型好坏的一些特征，这样有利于我们分析从哪里下手去改进、优化模型。很多人都知道

欠拟合和过拟合，它们分别代表着“高偏差”、“高方差”。如下图所示：

　　那么我们可以通过什么方法来判断高偏差和高方差呢？方法如下图所示，利用上文选择模型时计算的训练代价函数值

和验证代价函数值画出关于多项式阶数d的曲线图（是不是觉得，前面的计算没白费，接着利用很省力~）。从图中我们可

以很容易判断高偏差和高方差之处。

　　那么，哪些因素对模型的高偏差、高方差有些影响呢？其实有样本数、特征数、正则化参数等因素。

　　接下来我们看一下正则化参数λ是怎么影响高方差、高偏差的，如下图所示：

　　那么如何选择正则化参数呢？看下面左图，计算选择不同λ时的验证代价函数值J_cv(θ)，取其最小值时的λ即可。下面的

右图则是J_cv(θ)和J_train(θ)随正则化参数λ的变化曲线，看起来十分直观。

　　接下来再来看看训练样本数量对高偏差、高方差的影响，看下图：

高偏差
正常
高方差

　　很多人会觉得我之前提到了3个主要的影响因素，已经讲了正则化参数λ、训练样本数m对高偏差、高方差的影响，是不

是应该讲特征数了呀。童鞋们很聪明，推测的很准，不过有没有人注意到，上文在选择模型时，计算过关于特征值阶数的验证

代价函数值J_cv(θ)，然后选择较小值的阶数作为模型，其实这就是对特征值影响的分析（也许有人会提到特征数，其实道理都是

一样的，就不展开），当验证代价函数值最小的时候，完美地避过了高偏差和高方差区。

　　说了这么多，在这里总结一下模型优化的方法：

　　说了这么多，都没提到神经网络的模型选取和模型优化，其实吧，神经网络和多项式回归以及其他一些算法一样，其选择模

型和优化模型的方法一般采取的也是交叉验证法，即通过交叉验证集误差J_cv(θ)来实现。神经网络一般特征数、隐含层的层数是需

要重点关注的方面，因为这些处理不当，往往会造成过拟合。

不平衡数据学习模型的评估

　　在生活中，存在这样一个样本数据集，它有一个类别占的比重特别大，其他类占的比重特别小。比如有一个病人集，里面得了

癌症的人占0.5%，不得癌症的人占99.5%，假设得癌症输出1，不得癌症输出0。然后有人开发了一个算法，不管是输入什么病人，

一律输出0，那么正确率可以达到99.5%，然后得出评估，这个算法很成功。呵呵~，很多人都会觉得这个评估很荒谬，显然这种评

估方法不适合这种不平衡数据学习模型。

　　为了解决这个问题，我们先建立一个表格，如下图所示，上边的1、0代表真实的值，左边的1、0代表算法预测的值。这是什么

意思呢？以第一格为例，它代表真实上得了癌症以及算法预测上也得了癌症的人数，其它的以此类推。接下来我们把真实及预测都得

了癌症的人数除以预测得了癌症的总人数，即查准率；把真实及预测都得了癌症的人数除以真实得了癌症的总人数，即召回率。

　　看到这里，很多人都已经想到本文是准备用查准率和召回率来评估算法的好坏，没错，如果查准率和召回率都很高，算法肯定

很好。然而，查准率和召回率并不能同时很大，一个很大，另一个必然很小。所以我们需要寻找一种合适的方法去综合评估算法。

我们采用的是F值方法，能够很好的评估这类不平衡数据学习算法模型，如下图所示。

以上是全部内容，如果有什么地方不对，请在下面留言，谢谢~

posted @ 2017-08-29 15:59 steed灬阅读(3488) 评论(0) 编辑收藏举报

刷新页面返回顶部

steed

The future is in my hands. It's totally up to me.

机器学习之模型选择与改进

公告