用CTGAN生成真实世界的表格数据

随着CLIP和稳定模型的快速发展,图像生成领域中GAN已经不常见了,但是在表格数据中GAN还是可以看到它的身影。

现实世界的复杂性与许多方面相关(例如,缺失数据、不平衡数据、噪声数据),但最常见的一个问题是包含异构(或“混合”)数据,即包含数字和分类特征的数据。

由于每种特征类型都可能具有自己的内在特征,异构数据对合成数据生成过程提出了额外的挑战。

CTGAN(Conditional Tabular Generative Adversarial Network)就是通过“捕获”现实世界数据的这种异质性,与其他架构(如WGAN和WGAN- gp等)相比,已被证明对各种数据集更加健壮和可泛化。

在本文中,我们将介绍CTGAN,并且说明哪些属性使得它对表格数据如此高效,以及为什么和何时应该利用它。

真实世界的表格异构数据

我们所说的“表格数据”,即可以以类似表格的格式进行结构化和组织和存储的数据。特征(有时称为“变量”或“属性”)以列表示,而观察值(或“记录”)对应于行。真实世界的数据通常包括数字和分类特征:

数值特征(也称为“连续的”)是那些编码定量值的特征,而分类特征(也称为“离散的”)表示定性测量。

下面是一个收入数据集的示例,age和fnlwgt是数字特征,而其余的是分类特征。

完整文章:

https://avoid.overfit.cn/post/512c0554f1d84a56a14cf53181d6e471

posted @ 2023-04-15 11:07  deephub  阅读(166)  评论(0编辑  收藏  举报