Data Leakage 因果性

参考这篇:

https://blog.csdn.net/jiandanjinxin/article/details/54633475

 

再论数据科学竞赛中的Data Leakage

 

存在和利用这种倒‘因’为‘果’的feature的现象,叫数据竞赛中的Data Leakage。

 

Data Leakage的原因 

以此我们可以看出,Data Leakage 基本都是在准备数据的时候,或者数据采样的时候出了问题,误将与结果直接相关的feature纳入了数据集。这样的纰漏,比较难以发现。

 

 

必须重视因果性 

我们再把讨论往前推一步:大数据,是要相关性,还是因果性?

《大数据时代》是本大毒草 —— Professor M from Computer Science in University of Michigan

数据应用学院专门组织过讨论,集中批判一本畅销书《大数据时代》。这本书的主要观点就是,在大数据时代,要放宽对因果性的要求,充分利用相关性去挖掘数据的价值。我们上面的案例分析再一次证明,这样的观点是危险的。

 

而且,在数据科学家的Skillset中,为什么除了计算机技能,统计分析外,还要加一个“行业知识”?这其实是要求数据科学家能够利用行业知识来判断数据模型中的因果关系是否有价值,还是落脚到因果关系上。

 

posted @   blcblc  阅读(765)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
历史上的今天:
2017-03-24 写一个深度学习玩游戏的程序
2017-03-24 python整除
2017-03-24 pygame的安装
2017-03-24 deep learn的思想
2017-03-24 机器学习的特征
2017-03-24 机器学习模型的基本开发流程图 & 神经网络背景
点击右上角即可分享
微信分享提示