Characterizing Graph Datasets for Node Classification Homophily-Heterophily Dichotomy and Beyond

Platonov O., Kuznedelev D., Babenko A. and Prokhorenkova L. Characterizing graph datasets for node classification: homophily-heterophily dichotomy and beyond. NIPS, 2023.

阐述合理的 homophily metrics 所应该遵守的一些准则, 同时分析现有准则的不足之处, 并给出一些更好的改进.

符号说明

  • G=(V,E), graph;
  • |V|=n;
  • xvRm, feature vector;
  • yv{1,,C}, class label;
  • nk=|{v:yv=k}|;
  • N(v), 结点 v 的邻居;
  • d(v)=|N(v)|;
  • p(k)=nkn, empirical distribution of class labels;
  • p¯(k)=v:yv=kd(v)2|E|, degree-weighted distribution.
  • Edge homophily:

    hedge=|{u,v}E:yu=yv||E|.

  • Node homophily:

    hnode=1nvV|{uN(v):yu=yv}d(v).

  • Class homophily:

    hclass=1C1k=1C[v:yv=k|{uN(v):yu=yv}|v:yv=kd(v)nkn].

理想的准则

  • Maximal agreement: 一个理想的 homophily metric 应当保证存在一个可达的上界 cmax, 且满足如果图 G 满足 yu=yv,{u,v}E 成立, 就有

    h(G)=cmax.

    反之, 若不成立, 应当有

    h(G)<cmax.

  • Minimal agreement: 一个理想的 homophily metric 应当保证存在一个可达的下界 cmin, 且满足如果图 G 满足 yuyv,{u,v}E 成立, 就有

    h(G)=cmin.

    反之, 若不成立, 应当有

    h(G)>cmin.

  • Asymptotic constant baseline: (这里我大概介绍一下, 具体的定义请参见原文) 倘若一个图的边是独立于结点的类别的, 那么显然这个图的 homophily value 就不应该太高. 理想的 homophily metric 应当近似满足这一性质.

  • Empty class tolerance: 假设我们给一个图添加一些虚拟的类别 (但是不分配任何点和边), homophily value 应该保持不变. 理想的 homophily metric 应当满足这一性质 (个人感觉这个性质不那么重要).

  • Monotonicity for edge-wise homophily measures: 首先, 让我们定义 class adjacency matrix C

    cij=|{(u,v)|{u,v}E,yu=i,yv=j}|.

    注: {u,v}E 意味着同时存在两条边 (u,v),(v,u).
    单调性就是指, homophily metric 增加若 C 的对角线元素增加, homophily metric 减少 若 C 的非对角线元素增加.

现有的 metrics 的分析

Maximal Minimal Constant Empty class Monotonicity
hedge
hnode
hclass
hadj
  • 可以发现, hedge 是上述三种 metrics 符合的比较好的一个指标了, 但是比较重要的 asymptoic constant baseline 的性质并不满足, 这容易导致一些同质图可能会被识别为异质图 (或者相反).

  • 作者给出了如下的一个改进策略:

    hadj=hedgek=1Cp¯(k)21k=1Cp¯(k)2.

注: 还有一些其它方面的讨论, 请回看原文.

posted @   馒头and花卷  阅读(144)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2023-02-27 On the Theories Behind Hard Negative Sampling for Recommendation
2021-02-27 Chapter 4 Effect Modification
2019-02-27 Python Revisited Day 13 (正则表达式)
点击右上角即可分享
微信分享提示