Basis Concept
Error 到底来自于什么地方#
- 一种来自于bias(偏差), 一种来自于variance(方差),我们要去评定哪一个是影响error的决定性变量

- 模型只能从数据中得出来对于这个数据的猜测函数f∗, 但是真正的函数是程序编写者才知道的逻辑,我们只能希望f∗可以和^f稍微靠进一些,而靠近的过程就是减少bias, 和减少variance的过程。

- 模型的feature越多,那么这个模型所蕴含的函数空间就越大,那么就有更大的可能去找到那个真正的^y

- 如果说你的bias过大,表示你几乎不能拟合。
- 重新构建一个模型。
- 重新设置feature。
- 添加data。

- 如果说你的variance过大
- More data
- Regularization


- 在测试集上表现好的,也不一定是最好的模型,还需要再真实的数据集上去观察效果。
- 这里我们一般把机器学习的数据集划分为,训练集(train dataset),测试集(test dataset),以及验证集(validation dataset)
Cross Validation#

- 指再训练集上完全划分为几个不同的区块,然后使用一个当作测试集,其余为训练集去训练模型,打分。
N-fold Cross Validation#

- 指再训练集上完全划分为几个不同的区块,然后交叉的使用一个当作测试集,其余为训练集去训练模型,打分。遍历所有的区块,也就是说每一个区块都有一个机会去当做测试集被测试,那么得到的分数的个数为原来训练集被划分的区块的个数。
posted @
2021-03-09 23:50
MushRain
阅读(
90)
评论()
编辑
收藏
举报
点击右上角即可分享
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)