使用分类权重解决数据不平衡的问题

在分类任务中,不平衡数据集是指数据集中的分类不平均的情况,会有一个或多个类比其他类多的多或者少的多。

在我们的日常生活中,不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子,信用卡欺诈检测来介绍,在我们的日常使用中欺诈的数量要远比正常使用的数量少很多,对于我们来说这就是数据不平衡的问题。

我们使用kaggle上的信用卡交易数据集作为本文的数据集。数据的细节不是特别重要。因为为了进行脱敏,这个数据集的特征是经过PCA降维后输出的,所以讨论这些特征代表什么没有任何意义。除了PCA输出的特征以外,这个数据集还包括与每笔交易相关的美元金额、以秒为单位的连续时间索引,以及一个表示存在或不存在欺诈的二进制目标。对于时间索引,我们考虑到某些特征工程,它可能会很有用,但这不是本文的重点。对于我们真实可见的数据只有金额一项,这个很重要!

我们再看看目标,在284,807行数据中只有0.173%的行是欺诈案例,这绝对是不平衡数据的样例,这种数据的分布会使建模和预测欺诈行为变得有非常的棘手。

 

完整文章:

 

https://avoid.overfit.cn/post/13e8cb84f1e1480eb62d9f029647ed3a

posted @   deephub  阅读(78)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示