吴恩达机器学习笔记 —— 11 应用机器学习的建议

本篇讲述了在机器学习应用时，如何进行下一步的优化。如训练样本的切分验证？基于交叉验证的参数与特征选择？在训练集与验证集上的学习曲率变化？在高偏差或者高方差时如何进行下一步的优化，增加训练样本是否有效？

更多内容参考机器学习&深度学习

如果已经创建好了一个机器学习的模型，当我们训练之后发现还存在很大的误差，下一步应该做什么呢？通常能想到的是：

1 获取更多的数据
2 尝试选择更少的特征集合
3 获得更多的特征
4 增加多项式特征
5 增加λ
6 减小λ

样本的切分：首先针对我们的样本集，选择其中的70%作为训练集，训练模型；选择其中的30%作为测试集，验证模型的准确度。当使用交叉验证时，就不能简单的把数据集分成两份了，因为这样无法同时选择模型并衡量模型的好坏。因此可以把样本分成3份，其中60%作为训练集，20%作为交叉验证集，20%作为准确率测试集。

通过多项式的维度与训练集和验证集的误差可以画出上面的图形。如果多项式维度很低，训练集和测试集误差都很大，就叫做高偏差，即欠拟合。如果维度很高，训练集的误差很低，但是验证集误差很高，就叫做高方差，即过拟合。针对正则化λ也可以用这种方式进行选择：

当训练样本很少时，训练的模型在训练集上很容易就拟合出来，所以误差很小，随着训练样本的增加，误差也随之增加；对于验证集，由于最开始的样本很少，泛化能力很差，所以误差很高，随着样本的增加，验证集的效果越来越好。

针对于高偏差的情况，由于多项式维度很低，所以拟合出来的是一条直线。因此随着样本的增加，训练集的误差也会增加，但是最后会趋于稳定。此时，增加样本数量并没有什么作用。

针对于高方差的情况，增加样本则会帮助模型拟合的更好。

posted @ 2018-07-23 20:45 xingoo 阅读(748) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？

历史上的今天：
2014-07-23 (转)获取指定数据库和用户的所有表表名
2014-07-23 （转）java读取数据库表信息，子段

公告

扫码关注公众号，不定期分享大数据和机器学习工作经验与学习心得

昵称： xingoo
园龄： 12年5个月
粉丝： 3983
关注： 79

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔分类 (900)

随笔档案 (1028)