Characterizing Graph Datasets for Node Classification Homophily-Heterophily Dichotomy and Beyond

Platonov O., Kuznedelev D., Babenko A. and Prokhorenkova L. Characterizing graph datasets for node classification: homophily-heterophily dichotomy and beyond. NIPS, 2023.

阐述合理的 homophily metrics 所应该遵守的一些准则, 同时分析现有准则的不足之处, 并给出一些更好的改进.

符号说明

  • \(G = (V, E)\), graph;
  • \(|V| = n\);
  • \(\mathbf{x}_v \in \mathbb{R}^m\), feature vector;
  • \(y_v \in \{1, \ldots, C\}\), class label;
  • \(n_k = |\{v: y_v = k\}|\);
  • \(N(v)\), 结点 \(v\) 的邻居;
  • \(d(v) = |N(v)|\);
  • \(p(k) = \frac{n_k}{n}\), empirical distribution of class labels;
  • \(\bar{p}(k) = \frac{\sum_{v: y_v=k} d(v)}{2 |E|}\), degree-weighted distribution.
  • Edge homophily:

    \[h_{edge} = \frac{ |\{u, v\} \in E: y_u = y_v| }{ |E| }. \]

  • Node homophily:

    \[h_{node} = \frac{1}{n} \sum_{v \in V} \frac{ |\{u \in N(v): y_u = y_v\} }{ d(v) }. \]

  • Class homophily:

    \[h_{class} = \frac{1}{C-1} \sum_{k=1}^C \bigg[ \frac{ \sum_{v: y_v = k} |\{u \in N(v): y_u = y_v\}| }{ \sum_{v: y_v=k} d(v) } - \frac{n_k}{n} \bigg]. \]

理想的准则

  • Maximal agreement: 一个理想的 homophily metric 应当保证存在一个可达的上界 \(c_{\mathrm{max}}\), 且满足如果图 \(G\) 满足 \(y_u=y_v, \: \forall \{u, v\} \in E\) 成立, 就有

    \[h(G) = c_{\text{max}}. \]

    反之, 若不成立, 应当有

    \[h(G) < c_{\text{max}}. \]

  • Minimal agreement: 一个理想的 homophily metric 应当保证存在一个可达的下界 \(c_{\mathrm{min}}\), 且满足如果图 \(G\) 满足 \(y_u \not= y_v, \: \forall \{u, v\} \in E\) 成立, 就有

    \[h(G) = c_{\text{min}}. \]

    反之, 若不成立, 应当有

    \[h(G) > c_{\text{min}}. \]

  • Asymptotic constant baseline: (这里我大概介绍一下, 具体的定义请参见原文) 倘若一个图的边是独立于结点的类别的, 那么显然这个图的 homophily value 就不应该太高. 理想的 homophily metric 应当近似满足这一性质.

  • Empty class tolerance: 假设我们给一个图添加一些虚拟的类别 (但是不分配任何点和边), homophily value 应该保持不变. 理想的 homophily metric 应当满足这一性质 (个人感觉这个性质不那么重要).

  • Monotonicity for edge-wise homophily measures: 首先, 让我们定义 class adjacency matrix \(\mathcal{C}\)

    \[ c_{ij} = |\{ (u, v) | \{u, v\} \in E, y_u=i, y_v = j \}|. \]

    注: \(\{u, v\} \in E\) 意味着同时存在两条边 \((u, v), (v, u)\).
    单调性就是指, homophily metric 增加若 \(\mathcal{C}\) 的对角线元素增加, homophily metric 减少 若 \(\mathcal{C}\) 的非对角线元素增加.

现有的 metrics 的分析

Maximal Minimal Constant Empty class Monotonicity
\(h_{edge}\) \(\checkmark\) \(\checkmark\) \(\checkmark\) \(\checkmark\)
\(h_{node}\) \(\checkmark\) \(\checkmark\) \(\checkmark\)
\(h_{class}\) \(\checkmark\)
\(h_{adj}\) \(\checkmark\) \(\sqrt{}\mkern-9mu{\smallsetminus}\) \(\checkmark\) \(\checkmark\)
  • 可以发现, \(h_{edge}\) 是上述三种 metrics 符合的比较好的一个指标了, 但是比较重要的 asymptoic constant baseline 的性质并不满足, 这容易导致一些同质图可能会被识别为异质图 (或者相反).

  • 作者给出了如下的一个改进策略:

    \[ h_{adj} = \frac{ h_{edge} - \sum_{k=1}^C \bar{p}(k)^2 }{ 1 - \sum_{k=1}^C \bar{p}(k)^2 }. \]

注: 还有一些其它方面的讨论, 请回看原文.

posted @ 2024-02-27 17:12  馒头and花卷  阅读(40)  评论(0编辑  收藏  举报