Typesetting math: 100%

机器学习基石 之 三大学习原则(Three Learning Principles)

三大学习原则(Three Learning Principles)

奥卡姆剃刀 ‘Occam’s razor’

引用两个名言

An explanation of the data should be made as simple as possible, but no simpler. —Albert Einstein
entia non sunt multiplicanda praeter necessitatem (entities must not be multiplied beyond necessity) —William of Occam (1287-1347)

以上实际上就是奥卡姆剃刀的来源,奥卡姆剃刀的具体解释是:

‘Occam’s razor’ for trimming down unnecessary explanation

image-20200416212224409.png

实际上就是线性先行的策略,或者说简单先行的策略,因为简单意味着模型复杂度较低)(simple: small hypothesis/model complexity),这就使得的Ω(N,H,δ)Ω(N,H,δ)更小,使得 EoutEoutEinEin 相差不会太高。这里的ΩΩ代表模型复杂度惩罚项(penalty for model complexity),在VC Dimension中有定义。

其指导意见(direct action)是: 线性先行(linear first); 经常考虑是否已经尝试了简单模型(always ask whether data over-modeled)

采样偏差 ‘Sampling Bias’

在机器学习可行性分析时,是基于一个前提,那就是 data in/out of sample 是独立同分布的。

‘minor’ VC assumption: data and testing both iid from PP

所以本原则阐释的是一种现象即如果数据的采样渠道有偏差的话,学习的结果也会是存在类似偏差的。( if the data is sampled in a biased way, learning will produce a similarly biased outcome.)虽然使用交叉验证可以避免一些过拟合问题,但是值得注意的是测试数据,并非未采样数据。

数据窥探 ‘Data Snooping’

数据窥探最常见的就是可视化数据后,利用人类智能选取模型,但是一定要考虑到脑袋已经帮助了很多(经过了很复杂的计算),也就是说模型复杂度没那么简单(careful about your brain’s ‘model complexity’),可能会导致过拟合。所以说为了 VC safety 应当尽量避免数据窥探。

If a data set has affected any step in the learning process, its ability to assess the outcome has been compromised.

当然在学习过程的任何一个步骤,都可能存在数据窥探,这会导致其输出评估可能会存在问题,使得模型不准确。

事实上很难避免数据窥探,那应当如何处理呢,这里有两种方法

  • extremely honest: lock your test data in safe (非常诚实,一点也不看测试资料)
  • less honest: reserve validation and use cautiously (不诚实,对验证结果持保留意见,并谨慎使用)

在实际运用中有两个比较实用的指导方案:

  • be blind: avoid making modeling decision by data (避免通过数据选择模型)
  • be suspicious: interpret research results (including your own) by proper feeling of contamination(对原先的研究成果持怀疑态度)
posted @   FlameAlpha  阅读(333)  评论(0编辑  收藏  举报
编辑推荐:
· 理解Rust引用及其生命周期标识(下)
· 从二进制到误差:逐行拆解C语言浮点运算中的4008175468544之谜
· .NET制作智能桌面机器人:结合BotSharp智能体框架开发语音交互
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
阅读排行:
· 2025成都.NET开发者Connect圆满结束
· 后端思维之高并发处理方案
· 千万级大表的优化技巧
· 在 VS Code 中,一键安装 MCP Server!
· 10年+ .NET Coder 心语 ── 继承的思维:从思维模式到架构设计的深度解析
点击右上角即可分享
微信分享提示