EDITS: Modeling and Mitigating Data Bias for Graph Neural Networks

Dong Y., Liu N., Jalaian B. and Li J. EDITS: modeling and mitigating data bias for graph neural networks. In International World Wide Web Conference (WWW), 2022.

本文从 Attribute bias 和 Structural bias 两个角度为图数据本身去偏. 很有意思的想法.

Motivation

  • 如上图所示, 作者首先用人工数据集来说明 attribute bias 和 structural bias 的存在和不同;
  • 对于前者, 假设两个 group (Male, Female) 的特征分布是不同的 (如图 (a) 所示), 但是它们的图的结构是均匀的一致的, 此时经过 propagation 之后, attribute bias 实际上会有所缓解;
  • 对于后者, 假设两个 group 的特征分布是一致的, 但是它们的图的结构是不一致的, 此时经过 propagation 之后的特征分布反而存在了 bias, 显然此 bias 是由 structural bias 引发的;
  • 由此启发, 判断是否存在 attribute bias, 我们需要比较两个 group 的特征分布是否一致, 而为了判断是否存在 structural bias, 需要通过 propagation 后的特征分布的比较.
  • 而本文的目标就是, 给定一个有偏的图 G=(A,X), 来构造一个 G~=(A~,X~) 来缓解 bias.

解决的思路

符号太多, 这里就讲一下作者的思路.

  • 首先, 作者采用 Wasserstein distance, 即考察 propagation 前 (后) 的两个 group 的特征分布的差异, 用以衡量 attribute (structural) bias, 作者会用一些可训练的函数得到 A~,X~;

  • 其次, 因为 Wasserstein distance 很难直接优化, 所以就类似 W-GAN 一样, 作者先将这个分布距离问题转换为对偶问题, 这个对偶问题可以在 fLk 的函数空间中优化:

    max{fm:1mM}FL1,

    其中 M 是特征的维度;

  • 于是, 关于 A~,X~ 的目标就是

    minΘ~,A~L1+μ1X~XF2+μ2Θ1+μ3A~AF2+μ4A~1,

    其中 X~ 是通过 Θ 间接得到的. 上面的目标总结为:

    1. 去偏;
    2. 和原数据差距不能太远;
    3. 稀疏化.
  • 虽然加了 A~1, A~ 通常也不是非常稀疏的, 故作者实际上还用了截断.

代码

[official]

posted @   馒头and花卷  阅读(87)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2020-10-09 Contrastive Generative Adversarial Networks
点击右上角即可分享
微信分享提示