ML From Hung Yi Lee --- Basic Concept #2

Basis Concept

Error 到底来自于什么地方#

  • 一种来自于bias, 一种来自于variance,我们要去评定哪一个是影响error的决定性变量

  • 模型只能从数据中得出来对于这个数据的猜测函数f, 但是真正的函数是程序编写者才知道的逻辑,我们只能希望f可以和f^稍微靠进一些,而靠近的过程就是减少bias, 和减少variance的过程。

  • 模型的feature越多,那么这个模型所蕴含的函数空间就越大,那么就有更大的可能去找到那个真正的y^

  • 如果说你的bias过大,表示你几乎不能拟合。
    1. 重新构建一个模型。
    2. 重新设置feature
    3. 添加data。

  • 如果说你的variance过大
    1. More data
    2. Regularization

  • Model Selection

  • 在测试集上表现好的,也不一定是最好的模型,还需要再真实的数据集上去观察效果。
  • 这里我们一般把机器学习的数据集划分为,训练集(train dataset),测试集(test dataset),以及验证集(validation dataset)

Cross Validation#

  • 指再训练集上完全划分为几个不同的区块,然后使用一个当作测试集,其余为训练集去训练模型,打分。

N-fold Cross Validation#

  • 指再训练集上完全划分为几个不同的区块,然后交叉的使用一个当作测试集,其余为训练集去训练模型,打分。遍历所有的区块,也就是说每一个区块都有一个机会去当做测试集被测试,那么得到的分数的个数为原来训练集被划分的区块的个数。
posted @   MushRain  阅读(90)  评论(1编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示
主题色彩