首先这个模型的使用没有问题;
模型的评价也没有问题;
但是这个模型不能被工业化;
原因是数据本身有很大问题,典型的学术型数据;
问题如下:
1. 误踩油门是 刻意为之,因为每次基本都踩到底了,而实际驾驶过程中不会踩到底
2. 数据样本在 误踩油门 时加速踏板开度在100左右,而正常时刻加速踏板开度基本都很小,而实际驾驶过程中,正常驾驶时油门开度也会很大,不会一直很小
--实验数据和工业上的数据差别巨大
这样的数据造成的结果是:
1. 加速踏板开度重要性非常高,
2. 加速踏板开度基本就完全决定了label
3. 其他特征基本没用
在这种情况下,选择随机森林或许是个不错的选择,至少存在好于其他模型的可能性,
因为随机森林随机选择特征时,可能避开 加速踏板 开度这个重要特征,而关注到其他特征,使得其他特征起到作用;
// 这里有个小技巧,为了使得基学习器更多的避开 加速踏板 这个重要特征,可将 max_feature 设置的小一点,特别是特征较少时,增加避开的可能性
// 也可以树的棵树少一点,也是为了降低 以加速踏板为主要特征的基学习器 的投票个数
总结:
1. 数据要尽可能真实
2. 如果从数据或者模型看,某个特征在很大程度上决定了 label,而真实情况是这个特征根本不能决定 label,此时可选择 随机森林 模型,泛化能力可能会好于其他模型
// 特征较少时,试试这样:树的棵树小于特征个数
// 不一定能提升泛化能力,但是至少不会被虚假的评价指标所蒙蔽
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)