Characterizing Graph Datasets for Node Classification Homophily-Heterophily Dichotomy and Beyond
概
阐述合理的 homophily metrics 所应该遵守的一些准则, 同时分析现有准则的不足之处, 并给出一些更好的改进.
符号说明
- , graph;
- ;
- , feature vector;
- , class label;
- ;
- , 结点 的邻居;
- ;
- , empirical distribution of class labels;
- , degree-weighted distribution.
Popular homophily measures
-
Edge homophily:
-
Node homophily:
-
Class homophily:
理想的准则
-
Maximal agreement: 一个理想的 homophily metric 应当保证存在一个可达的上界 , 且满足如果图 满足 成立, 就有
反之, 若不成立, 应当有
-
Minimal agreement: 一个理想的 homophily metric 应当保证存在一个可达的下界 , 且满足如果图 满足 成立, 就有
反之, 若不成立, 应当有
-
Asymptotic constant baseline: (这里我大概介绍一下, 具体的定义请参见原文) 倘若一个图的边是独立于结点的类别的, 那么显然这个图的 homophily value 就不应该太高. 理想的 homophily metric 应当近似满足这一性质.
-
Empty class tolerance: 假设我们给一个图添加一些虚拟的类别 (但是不分配任何点和边), homophily value 应该保持不变. 理想的 homophily metric 应当满足这一性质 (个人感觉这个性质不那么重要).
-
Monotonicity for edge-wise homophily measures: 首先, 让我们定义 class adjacency matrix 为
注: 意味着同时存在两条边 .
单调性就是指, homophily metric 增加若 的对角线元素增加, homophily metric 减少 若 的非对角线元素增加.
现有的 metrics 的分析
Maximal | Minimal | Constant | Empty class | Monotonicity | |
---|---|---|---|---|---|
-
可以发现, 是上述三种 metrics 符合的比较好的一个指标了, 但是比较重要的 asymptoic constant baseline 的性质并不满足, 这容易导致一些同质图可能会被识别为异质图 (或者相反).
-
作者给出了如下的一个改进策略:
注: 还有一些其它方面的讨论, 请回看原文.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2023-02-27 On the Theories Behind Hard Negative Sampling for Recommendation
2021-02-27 Chapter 4 Effect Modification
2019-02-27 Python Revisited Day 13 (正则表达式)