Characterizing Graph Datasets for Node Classification Homophily-Heterophily Dichotomy and Beyond
概
阐述合理的 homophily metrics 所应该遵守的一些准则, 同时分析现有准则的不足之处, 并给出一些更好的改进.
符号说明
- \(G = (V, E)\), graph;
- \(|V| = n\);
- \(\mathbf{x}_v \in \mathbb{R}^m\), feature vector;
- \(y_v \in \{1, \ldots, C\}\), class label;
- \(n_k = |\{v: y_v = k\}|\);
- \(N(v)\), 结点 \(v\) 的邻居;
- \(d(v) = |N(v)|\);
- \(p(k) = \frac{n_k}{n}\), empirical distribution of class labels;
- \(\bar{p}(k) = \frac{\sum_{v: y_v=k} d(v)}{2 |E|}\), degree-weighted distribution.
Popular homophily measures
-
Edge homophily:
\[h_{edge} = \frac{ |\{u, v\} \in E: y_u = y_v| }{ |E| }. \] -
Node homophily:
\[h_{node} = \frac{1}{n} \sum_{v \in V} \frac{ |\{u \in N(v): y_u = y_v\} }{ d(v) }. \] -
Class homophily:
\[h_{class} = \frac{1}{C-1} \sum_{k=1}^C \bigg[ \frac{ \sum_{v: y_v = k} |\{u \in N(v): y_u = y_v\}| }{ \sum_{v: y_v=k} d(v) } - \frac{n_k}{n} \bigg]. \]
理想的准则
-
Maximal agreement: 一个理想的 homophily metric 应当保证存在一个可达的上界 \(c_{\mathrm{max}}\), 且满足如果图 \(G\) 满足 \(y_u=y_v, \: \forall \{u, v\} \in E\) 成立, 就有
\[h(G) = c_{\text{max}}. \]反之, 若不成立, 应当有
\[h(G) < c_{\text{max}}. \] -
Minimal agreement: 一个理想的 homophily metric 应当保证存在一个可达的下界 \(c_{\mathrm{min}}\), 且满足如果图 \(G\) 满足 \(y_u \not= y_v, \: \forall \{u, v\} \in E\) 成立, 就有
\[h(G) = c_{\text{min}}. \]反之, 若不成立, 应当有
\[h(G) > c_{\text{min}}. \] -
Asymptotic constant baseline: (这里我大概介绍一下, 具体的定义请参见原文) 倘若一个图的边是独立于结点的类别的, 那么显然这个图的 homophily value 就不应该太高. 理想的 homophily metric 应当近似满足这一性质.
-
Empty class tolerance: 假设我们给一个图添加一些虚拟的类别 (但是不分配任何点和边), homophily value 应该保持不变. 理想的 homophily metric 应当满足这一性质 (个人感觉这个性质不那么重要).
-
Monotonicity for edge-wise homophily measures: 首先, 让我们定义 class adjacency matrix \(\mathcal{C}\) 为
\[ c_{ij} = |\{ (u, v) | \{u, v\} \in E, y_u=i, y_v = j \}|. \]注: \(\{u, v\} \in E\) 意味着同时存在两条边 \((u, v), (v, u)\).
单调性就是指, homophily metric 增加若 \(\mathcal{C}\) 的对角线元素增加, homophily metric 减少 若 \(\mathcal{C}\) 的非对角线元素增加.
现有的 metrics 的分析
Maximal | Minimal | Constant | Empty class | Monotonicity | |
---|---|---|---|---|---|
\(h_{edge}\) | \(\checkmark\) | \(\checkmark\) | \(\checkmark\) | \(\checkmark\) | |
\(h_{node}\) | \(\checkmark\) | \(\checkmark\) | \(\checkmark\) | ||
\(h_{class}\) | \(\checkmark\) | ||||
\(h_{adj}\) | \(\checkmark\) | \(\sqrt{}\mkern-9mu{\smallsetminus}\) | \(\checkmark\) | \(\checkmark\) |
-
可以发现, \(h_{edge}\) 是上述三种 metrics 符合的比较好的一个指标了, 但是比较重要的 asymptoic constant baseline 的性质并不满足, 这容易导致一些同质图可能会被识别为异质图 (或者相反).
-
作者给出了如下的一个改进策略:
\[ h_{adj} = \frac{ h_{edge} - \sum_{k=1}^C \bar{p}(k)^2 }{ 1 - \sum_{k=1}^C \bar{p}(k)^2 }. \]
注: 还有一些其它方面的讨论, 请回看原文.