统计学习方法第一章学习心得

以下可能有不当之处，请各位朋友停步指正，先谢过各位。

上一帖子说道，统计学习方法的三要素：模型、策略、算法.

模型：模型的假设空间

策略：模型的选择准则，即：定义最优模型的方法。

算法：模型学习的算法，也就是求解最优模型的算法。

-------------------------------------------------------------------

通俗的讲，应用统计学习方法有以下几个步骤，

1.首先，要对已有数据进行分析，选择合适的能够对该数据集的规律进行描述的（带未知参数的）方程或者说函数，此时是第一步，也是很重要的一步。--->也叫模型的假设空间

2.然后，由于在第一步中的函数（也叫模型的假设空间）还带有未知参数，同时它的预测能力也未可知，因此我们需要一个自动评价其优劣性的方法，即：在什么情况下，我们认为其未知参数的选定是好的，什么情况下是坏的，这样我们就有了一个评判标准，能够想办法使得结果越来越贴近真实。我们称其为策略（模型选择的准则）。

3.最后，有了模型（带参数的函数、假设空间），有了评判标准，当然数据集一直在的，这样我们就可以利用计算机惊人的、快速的、重复的、永不疲倦的计算能力找到模型的最优参数（是否最优，需要根据策略来评定）。

这样，我们求解到了模型就可以对数据进行预测、分类了。

,接着又衍生了另外一个问题，模型预测能力的评定，以及在数据集不够的情况下如何最大效率的利用好有限的数据集？

1.在上一步的模型求解过程当中，我们有损失函数来描述模型的策略，评判模型的好坏，此时如何对已经习得的模型预测能力进行评测呢

由于如果一味追求对训练数据的预测能力，所选择的模型的参数过多，复杂度比真实模型高，造成了一种特殊的现象，即：模型对训练数据的预测能力很好，但对未知数据的预测能力很差。所以我们需要有一种方法来评定模型对未知数据的预测能力，而不能仅仅盯着模型确定时的预测能力。

用泛化能力来描述模型对于未知数据的预测能力。

2.高效利用数据集的方法

交叉验证

posted @ 2013-02-26 18:45 fandyst 阅读(464) 评论(0) 编辑收藏举报

刷新页面返回顶部

会当临绝顶，一览众山小