Effective Clustering on Large Attributed Bipartite Graphs翻译

Effective Clustering on Large Attributed Bipartite Graphs翻译

大型有属性二部图的高效聚类

Renchi Yang KDD 2024 香港浸会大学

摘要

属性二部图(ABGs)是一种表达性数据模型,用于描述与丰富属性相关的两组异构节点之间的交互,例如客户-产品购买网络和作者-论文作者关系图。将这些图中的目标节点集划分为𝑘个不相交的集群(称为𝑘-ABGC)在各种领域中得到了广泛的应用,包括社会网络分析、推荐系统、信息检索和生物信息学。然而,大多数针对𝑘-ABGC的现有解决方案要么忽略属性信息,要么无法准确捕获二部图结构,从而严重影响结果质量。这些问题的严重性在实际的ABGs中更加突出,这些ABGs通常包含数百万个节点和大量的属性数据,这使得在这些图上有效地𝑘-ABGC非常具有挑战性。

在本文中,提出了TPO,一种有效且高效的方法𝑘-ABGC,可以在多个真实数据集上实现出色的聚类性能。TPO通过两个主要贡献获得了高聚类质量:(i)基于多尺度属性亲和性的𝑘-ABGC问题的新公式和转换,专门用于捕获节点之间的属性亲和性,并考虑ABGs中的多跳连接;(ii)一个高效的求解器,其中包括一套精心设计的优化,以避免显式亲和性矩阵的构建,并促进更快的收敛。大量的实验将TPO与5个真实ABGs的19个基线进行了比较,结果表明TPO与地面真值标签相比具有优越的聚类质量。此外,与最先进的技术相比,TPO通常比小型和大型ABGs快40倍以上。

1 引言

二部图是一种不可缺少的数据结构,用于对来自异构来源的两组实体之间的相互作用进行建模,例如作者-出版协会、客户-商家交易、查询-网页配对以及社交媒体、电子商务平台、搜索引擎等各种用户-物品交互。在现实世界中,这样的图通常与丰富的属性相关联,例如,社交网络中的用户概况,网络图中的网页内容,癌症信号网络中的通路标志以及学术图中的论文关键词,这些被称为属性二部图(attribuated bipartite graph,以下简称ABGs)。

给定一个属性二部图G两个不相交的节点集UV,𝑘-Attributed Bipartite Graph Clustering (𝑘-ABGC),分析ABG的根本任务,寻求感兴趣的分区节点的节点集,例如,UV,𝑘重叠集群C1, C2 , · · · , C𝑘,这样同一集群中节点C𝑖相互接近的相似属性和拓扑邻近G.由于ABGs普遍存在,𝑘-ABGC已经在社会网络分析、推荐系统、信息检索和生物信息学中得到了广泛的实际应用,例如用户/内容标记[45,81]、市场购物篮分析[83,84]、文档分类[8,59]、蛋白质复合物、疾病基因和药物靶标的鉴定[46,64]以及其他许多领域[26,34,50,67,69]。

如第5节所述,𝑘-ABGC的现有解决方案主要依赖于二部图共聚类(BGCC)、属性图聚类(AGC)和属性网络嵌入(ANE)技术。其中,文献[2,8,9,28,29,63]对聚类非属性二部图的BGCC进行了广泛的研究,其基本思想是仅根据U和V在G中的相互作用同时对它们进行分组,而不是将它们单独聚类。正如先前的研究[4]所指出的那样,属性提供了丰富的信息来表征节点的属性,因此可以补充缺乏的拓扑信息,从而更好地进行节点聚类。因此,BGCC方法在ABGs上表现不佳,因为它们忽略了这些信息。

为了利用图拓扑和属性的互补性来增强聚类效果,近年来人们在设计有效的AGC模型和算法方面投入了大量的努力[4,6,12,30,77,85]。尽管这些方法通过深度学习或复杂的统计模型融合图连通性和节点属性信息,在单部属性图上获得了更好的性能,但它们对于abg来说是次优的。

在过去的十年中,网络嵌入已经成为一种流行而强大的工具,用于分析图结构数据,特别是那些具有节点属性的数据。尽管发明了大量的网络嵌入技术[7,14,75],但大多数都是为单部图设计的。为了捕捉二部图的独特特征,Huang等[23]将node2vec[18]扩展到abg,代价是巨大的训练开销。对𝑘-ABGC采用这类方法需要一个后置阶段(例如𝑘-Means)来对节点嵌入进行聚类,考虑到高嵌入维度(通常为128),这是不划算的。总而言之,𝑘-ABGC的现有方法要么由于对属性和二部图拓扑的利用不足而降低了聚类质量,要么导致巨大的计算成本,特别是在包含数千个属性、数百万个节点和数十亿条边的大型abg上。

为了应对这些挑战,提出了TPO,这是一个新的𝑘-ABGC三相优化框架,在结果有效性和计算效率方面显着提高了𝑘-ABGC的技术水平。首先,TPO将𝑘-ABGC任务定义为一个基于多尺度属性关联(MSA)的优化问题,MSA是一种新的针对ABGs的节点关联度量。更具体地说,ABGG的U中两个同构节点𝑢i,𝑢𝑗的MSA评估了它们从多跳邻域聚合的属性的相似性,有效地捕获了二部图中节点的属性和拓扑连接的亲和力。然而,计算G中所有节点对的MSA用于聚类对于大型图来说是非常昂贵的,因为它需要巨大的构建时间和空间消耗(𝑂(|U|2))。最重要的是,由于np -hard的问题,的𝑘-ABGC目标的精确优化也是不可行的。

为了解决这些问题,TPO采用了一种三相优化方案来获得近似解,其时间和空间成本与g的大小成线性关系。在底层,与内核技巧[36]的精神类似,TPO首先利用一种数学装置,即随机特征[49,82],来绕过全成对MSA的实现。聚类任务随后被框架为一个非负矩阵分解,然后是一个矩阵近似问题,基于的理论基础问题转换。特别是,前者致力于产生中间结果,而后者迭代地细化中间结果以派生最终的集群。

除了线性时间迭代求解器之外,TPO还包括一个贪婪初始化技巧来加速收敛,以及一个属性降维方法来显著提高TPO在具有大属性集的图上的实际效率,而不会降低结果质量。的实证研究涉及5个真实的abg,并与19种现有算法进行了比较,结果表明,与最先进的方法相比,TPO始终以一小部分成本获得了卓越或相当的聚类质量。例如,在拥有超过1000万个节点和2200万条边的最大Amazon数据集上,TPO在3分钟内获得最佳聚类精度,而最先进的聚类需要4个多小时才能终止。
image

2 问题定义

2.1 符号和术语

用粗体大写字母表示矩阵,例如,MR𝑛×𝑑,第𝑖行表示为M[i]。对于每个向量M[i],用M[i]表示其𝐿2范数,用MFM的弗罗贝尼乌斯范数(Frobenius norm)。

范数(Norm)是数学中的一个基本概念,用于度量向量空间(或矩阵)中每个向量的长度或大小。范数的计算方法依赖于其类型,常见的范数包括‌L1范数、‌L2范数(也成为欧几里得范数)、无穷范数(L范数)等。

  • L1范数‌:定义为向量元素绝对值之和,即x1=i=1nxi
  • L2范数‌:定义为向量元素平方和的正平方根,即x2=i=1nxi2
  • 无穷范数(L范数)‌:定义为向量元素绝对值的最大值,即x=maxixi
  • Frobenius 范数:简称F-范数,是一种矩阵范数,记为·F。矩阵A的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和再开方,即:
    image

G=(UV,E,XU,XV)表示一个有属性二部图(ABG,attributed bipartite graph),其中E由连接两个不相交节点集UV中的节点的边组成,每条边(𝑢i,𝑣𝑗)与一个边权𝑤(𝑢i,𝑣𝑗)相关联。每个节点𝑢iU(同样的对于𝑣iV)其特征为长度是dU的属性向量XU[i]。进一步,用BUR|U|×|V|表示G的邻接矩阵,如果(𝑢i,𝑣𝑗)E,则BU[i𝑗]=𝑤(𝑢i,𝑣𝑗),否则为0。假设DU|U|×|U|的对角矩阵,其中对角值DU[i,i]表示与𝑢i相关的所有边的权值之和。也就是说(𝑢i,𝑣)E𝑤(𝑢i,𝑣)。表1列出了本文中经常使用的符号。

𝑘-ABGC的总体目标在定义2.1中进行了形式化描述,并在图1中进行了举例说明。请注意,默认情况下,将U视为集群的目标节点集。数字𝑘可以由用户指定,也可以通过一个初步的过程进行配置[41]。

定义2.1(𝑘-属性二部图聚类(𝑘-ABGC))。

给定一个ABGG,目标节点集U和集群数量𝑘,𝑘-ABGC旨在将节点集U划分为𝑘个不相交的集群{C1,C2···C𝑘},使同一集群内的节点在拓扑接近度和属性相似度上彼此接近,而不同集群间的节点则相距较远。

image

2.2 多尺度属性亲和力(MSA)

注意,定义2.1不能直接指导聚类的生成,因为它缺乏量化节点亲和力的具体优化目标。为此,首先从图结构和属性两个方面描述了节点的新型亲和度量MSA。

MSA公式。用于衡量图中任意两个节点uiuj之间的亲和性。首先假设每个节点uiU都可以用一个特征向量ZU[i]来表示,它既表征了属性,也表征了隐藏在二部图拓扑中的丰富语义。根据流行的Skip-gram模型[40]及其对图的扩展[18,47],可以将节点的成对亲和力建模为softmax单元[16],该单元由其特征向量的点乘参数化。这里不使用普通的softmax函数,而是采用对称的softmax函数,将U中任意两个节点𝑢i𝑢𝑗之间的MSA𝑠(𝑢i,𝑢𝑗)表述为:

(1)s(ui,uj)=eZ^U[i]Z^U[j]uUeZ^U[i]Z^U[]uUeZ^U[j]Z^U[],

Z^U是特征矩阵ZU归一化后的结果。归一化通过将每个特征向量除以其范数(即向量的长度)来实现,确保每个特征向量的范数为1。这有助于避免特征向量的长度对点积结果产生过大的影响。

(2)Z^U[i]=ZU[i]/ZU[i].

多尺度属性亲和力(MSA)s(ui,uj)是对称的,即s(ui,uj)=s(uj,ui)对于所有ui,ujU成立。此外,对于所有ui,ujU,通过归一化1Z^U[i]Z^U[j]1,因此,相对于任何节点uiU的 MSA 值被缩放到一个相似的范围。

ZU的优化目标。接下来,将重点放在获取每个节点的uiU特征向量Z^U上。一个较好的选择可能是图神经网络(GNN)[27],然而,由于现有的GNN主要是为一般图设计的,并且训练经典GNN的成本相当高,因此它不能轻易应用于ABGs。正如最近的研究[38,70,89]所揭示的那样,从数值优化的角度来看,许多流行的GNN模型可以统一到一个优化框架中,该框架本质上产生的节点特征向量在底层图的附近节点上是光滑的。受此发现的启发,将此优化框架扩展到ABGs。更具体地说,其目标如下:

(3)minZU(1a)Oa+αOg

其中包括一个非负系数α[0,1]和两项:

(i)在Eq.(4)中有一个拟合项O𝑎,旨在保证ZU接近输入属性向量XU;

(4)Oa=||ZUXU||F2

(ii) Eq.(5)中的正则化项O𝑔约束两个高连通性节点的特征向量相似。

(5)Og=12ui,ujUw^(ui,uj)ZU[i]DU[i,i]ZU[j]DU[j,j]2

正则化项要求在方程(5)中对每个节点uiZU[i]进行缩放,缩放因子为1/DU[i,i],D是节点的度,以避免在ui连接大量或较少的链接时扭曲ZU[i]中的值。方程(5)中的权重w^(ui,uj)由下式定义:

w^(ui,uj)=vN(ui)N(uj)w(ui,v)w(v,uj)DV[,],

它反映了U中两个同质节点ui,uj(例如,研究者)之间的连接强度,通过他们在对方V(例如,合著的论文)中的共同邻居来衡量。举个例子,考虑图1中的研究人员𝑢3,𝑢4,𝑤^(𝑢3,𝑢4)=13+12+14,其中分母3,2和4对应于论文𝑣3,𝑣4和𝑣5的作者数量。因此,𝑤^(𝑢3,𝑢4)评估了𝑢3、𝑢4对他们在v中的合作研究工作的总体贡献。因此,Eq.(3)中的O𝑔项是为了最小化那些广泛合作、贡献高的研究人员之间的特征向量距离。

超参数参数的设置可以平衡属性信息和拓扑信息。特别地,当α=0时,特征向量ZU=XU,当α=1时,特征向量ZU完全依赖于G的拓扑结构。

ZU的闭型解。给定一个α,引理2.2表明,Eq.(3)的最优特征向量ZU可以通过Eq.(6)中的迭代稀疏矩阵乘法来计算,而无需进行昂贵的训练。

"Closed-form solution"(封闭形式解)是数学和工程学中的一个术语,指的是一个问题的解能用一个表达式明确写出,而不需要通过迭代或近似方法来求解。这种解通常是精确的,并且可以用有限的数学运算直接计算出来。在处理方程、函数或优化问题时,如果可以得到一个封闭形式的解,那么计算通常更简单、更快速,因为可以直接应用公式计算出结果。例如,线性方程组的解可以表示为封闭形式的解,如果系数矩阵是方阵且可逆的话。相对的,如果一个问题不能用一个简单的表达式来解决,而需要通过数值方法(如迭代法、插值法、数值积分等)来近似求解,那么这种解就不是封闭形式的。在机器学习和数据科学中,如果一个模型的参数可以推导出一个封闭形式的解,这通常意味着模型训练更快、更直接,并且解的表达式有助于理解和解释模型的行为。

引理2.2。当γ时,Eq.(6)中的ZU是Eq.(3)中优化问题的闭型解。

(6)ZU=(1α)r=0γαr(LULU)rXU,

此处Lu节点集U的邻接矩阵BU的归一化版本。LULU归一化邻接矩阵与其转置的乘积,表示节点间的连接关系。xU是节点集U的输入属性向量矩阵。

(7)LU=DU12BUDV12.

在实践中,为了提高效率,将Eq.(6)中的γ设置为有限的数(通常为5)。直观地说,ZU的计算本质上是根据G中其他同质节点的多尺度邻近度(例如,通过多个跳数(最多为γ跳数)的连接强度)聚集属性。因此,具有许多直接或间接连接的节点的特征向量将更有可能接近,从而在Eq.(1)中产生高MSA。

2.3 目标函数

基于前述𝑘-ABGC和MSA的定义,将𝑘-ABGC问题表述为以下目标函数:

(8)minC1,C2,,Ck=1k1|C|uiC,ujUCs(ui,uj),

更准确地说,Eq.(8)是为了识别U中𝑘个不相交的簇C1, C2,···,C𝑘,使得不同簇中两个节点的平均MSA较低。同时,在此优化目标下,使同一集群中任意两个节点的平均MSA最大化;换句话说,同一集群中的节点是紧密结合的。

由[52]可知,Eq.(8)是一个NP-complete组合优化问题。因此,当U包含大量节点时,Eq.(8)的精确解在计算上是不可行的。而且,Eq.(8)的直接优化要求实现U×U中每个节点对的𝑠(𝑢i,𝑢𝑗)。因此,通过优化Eq.(8)得到一个近似解需要𝑂(|E|·|U|·𝑑U)的计算成本和二次空间开销𝑂(|U|2),使得它不适合大型ABGs。

补充:

非负矩阵分解(Non-negative Matrix Factorization,简称NMF)是一种矩阵分解技术,它将一个非负矩阵分解为两个非负矩阵的乘积。这种方法在数据挖掘、机器学习、图像处理和推荐系统等领域有广泛的应用。NMF的目标是找到两个非负矩阵,使得它们的乘积尽可能接近原始矩阵。

1、原理:给定一个非负矩阵VRm×n,NMF旨在找到两个非负矩阵WRm×rHRr×n ,使得:

VWH

其中,r是分解的秩(rank),通常r远小于mn,这样可以捕捉矩阵V的主要特征,同时降低数据的维度。

2、目标函数

NMF通常通过最小化原始矩阵V和分解后的矩阵 WH 之间的差异来实现。常用的差异度量是Frobenius范数,目标函数可以表示为:

minW,HVWHF2

其中,F表示Frobenius范数,即矩阵元素的平方和的平方根。

3、算法

NMF的求解通常采用迭代算法,以下是一些常用的方法:

  1. 乘法更新规则(Multiplicative Update Rules):这种方法通过交替更新 W 和 H 来最小化目标函数。更新规则基于梯度下降的思想,但使用乘法而不是加法来更新矩阵元素。

  2. 交替最小二乘法(Alternating Least Squares, ALS):这种方法通过固定一个矩阵,然后求解另一个矩阵的最小二乘问题,交替进行直到收敛。

  3. 梯度下降法(Gradient Descent):直接对目标函数进行梯度下降,更新 W 和 H 。

4、优点和限制

优点:

  • NMF能够处理非负数据,这使得它在处理实际应用中的计数数据或强度数据时非常有用。
  • 通过降低数据维度,NMF有助于数据的可视化和解释。

限制:

  • NMF可能难以找到全局最优解,通常只能保证找到局部最优解。
  • 对于大规模数据集,NMF的计算成本可能很高,尽管有一些方法可以加速计算,如随机初始化和并行计算。
  • NMF对初始化敏感,不同的初始化可能导致不同的结果。

3 TPO算法

为了解决上述挑战,本节将三相优化框架(TPO:Three-Phase Optimization framework)引入到𝑘-ABGC基于Eq.(8)的计算,而无需显式构建MSA矩阵。

3.1 概述

在高层次上,TPO的灵感来自于Eq.(8)和Eq.(9)中优化目标之间的等价性,如引理3.1。

引理3.1。Eq.(8)等价于以下目标:

(9)minY0,H0||RYH||F2s.t.Y is an NCI matrix

具体的说,如果能确定一个矩阵RR[i]R[j]=s(ui,uj)ui.ujU, 使用优化目标Eq. (8) 计算k个不重叠集群ClC2Ck等价于将R分解为两个非负矩阵YH,其中Y代表一个归一化聚类指示器(NCI: normalized cluster indicator,其中每一行仅包含一个非零值,表示聚类成员身份),矩阵YR|U|×k定义如Eq. (10).

(10)Y[i,]={1|C|if uibelongs to in cluster C,0otherwise.

根据Eq. (10), 对每个节点uiU, 在归一化聚类指示器 NCI 矩阵中对应的向量Y[i]仅包含一个非零元素Y[i,],这个非零元素表示节点ui的聚类归属, 其值应为1/|C|. 这种特性确保了Y矩阵是列正交的,即YY=I。然而,Y矩阵上的这种约束使得矩阵R的分解难以收敛。不直接计算精确Y矩阵 , 而是采用两步近似策略。更具体地说, TPO首先构建一个|U|×k矩阵Υ(Y的连续版本) ,该矩阵最小化了Eq. (11)中的分解损失:

(11)minΥ0,H0RΥHF2 s.t. ΥΥ=I,

在其中,Eq. (9)中对Y的约束被放宽为Υ0ΥΥ=I.之后,任务是通过最小化它们在Eq. (9)中的差值将Υ转换为NCI矩阵Y.

如图2, 给定一个属性二分图G、聚类数量k, 以及作为输入的节点集U,TPO通过三个阶段输出方程(8)中k-ABGC 问题的近似解:

(i) 构建一个低维矩阵R使得ui.ujUR[i]R[j]s(ui,uj),而不需要显式地实现所有节点对的多尺度属性亲和力( MSA )(Algorithm 1, Section 3.2);

(ii) 根据Eq. (11) 分解R以创建一个U×k非负列正交矩阵Υ(Algorithm 2, Section 3.3);

(iii) 有效地将Υ转换为归一化聚类指示器(NCI )Y(Algorithm 3, Section 3.4). 下文将详细阐述这三种算法子程序的细节。

由于篇幅限制,将其复杂性分析和 TPO 的分析推迟到的技术报告[78]中进行。

  • 多尺度属性亲和力 (MSA):一种用于描述节点对之间在多个尺度上(文中只有一阶尺度?)的相似度或关系的度量。
  • 归一化聚类指示器 (NCI):一种矩阵,用于表示节点的聚类成员身份,其中每一行对应一个节点,每一列对应一个聚类,节点属于某个聚类就在相应的位置有一个非零值。(这不就是非负矩阵分解嘛?)

image

3.2 基于随机特征的MSA近似

image

算法1展示了将Eq. (1)中的多尺度属性亲和力(MSA)近似计算线性化的伪代码,即将其表示为矩阵乘积RR. 这个基本思想是利用并调整随机特征[49, 82]技术,该技术旨在近似任意向量xy的高斯核exy2/2。在输入属性二分图G和参数αy之后,算法1首先根据Eq. (7) 计算LU并初始化ZUαXU(Lines 1-2)。在第3-4行,通过γ次迭代更新ZU,每次迭代执行以下矩阵乘法:

(12)ZUα(XU+LU(LUZU)).

特别地,将矩阵乘法LULUZU重构为方程(12)中的LU(LUZU)以提升计算效率。之后,算法1通过在ZU的每一行应用L2归一化将ZU转换为Z¯U(第5行),然后继续构建R(第6-9行)。具体来说,首先生成一个dU×dU的高斯随机矩阵G,每个条目都是独立地从标准正态分布中抽取的(第6行),然后对其执行QR分解,得到一个dη×dη的正交矩阵Q(第7行)。矩阵Q在Stiefel流形上均匀分布,即所有正交矩阵的空间[43]。

  • QR分解:一种将矩阵分解为正交矩阵和上三角矩阵的分解方法。
  • Stiefel流形:所有具有相同列数的正交矩阵构成的空间。

公式(12)是用于更新属性二分图(ABG)中节点集U的特征向量ZU的迭代过程。这个过程是算法1的一部分,旨在通过迭代矩阵乘法来近似计算多尺度属性亲和力(MSA)。公式(12)的迭代更新过程:

  1. 初始化:首先,ZU被初始化为αXU,这意味着初始的特征向量主要由节点的属性决定。
  2. 迭代更新:在接下来的γ次迭代中,ZU通过公式(12)进行更新。每次迭代中,ZU被更新为α乘以XU加上LULUTZU的乘积。这个过程可以看作是将节点的属性信息与其邻居的属性信息相结合,以反映节点间的拓扑结构。
  3. 效率提升:通过将矩阵乘法LULUTZU重构为LU(LUTZU),算法提高了计算效率。在原始的矩阵乘法中,如果直接计算LULUT,这将涉及到一个|U|×|U|矩阵与自身的乘法,这在大规模图中是非常耗时的。通过先计算LUTZU,我们得到一个|U|×dU的矩阵,其中dU通常远小于|U|。这样,避免了直接计算大矩阵的乘法。

接下来,算法1通过以下方式计算R,矩阵R将用于后续的多尺度属性亲和力(MSA)的近似计算:

(13)R=edU(sin(Z^U)cos(Z^U))R|U|×2dU,

  • R:一个中间矩阵,其维度为|U|×2dU,其中|U|是节点集U中节点的数量,dU是节点属性的维度。
  • edU:一个缩放因子,用于调整矩阵的尺度。这里e是自然对数的底数,dU是节点属性的维度。
  • sin(Z^U)cos(Z^U):分别表示对Z^U进行正弦和余弦变换。这是通过随机特征方法来近似高斯核的一种技术。
  • Z^U=dUZ^UQ:这里Z^U是经过L2归一化处理的ZUQ是从高斯随机矩阵G通过QR分解得到的正交矩阵。

最终,在第9行,通过将R的每一行进行归一化,得到矩阵R

(14)R[i]=R[i]R[i]rR2dUwherer=uUR[].

定理 3.2. 对于任意两个节点ui,ujU,如果R是算法1的输出,那么以下不等式成立:

11716dql214dql1+1716dql2+14dqls(ui,uj)E[R[i]R[j]]1+1716dql2+14dql11716dql214dqls(ui,uj)

定理3.2表明E[R[i]R[j]]作为s(ui,uj)的一个准确估计器,表现出极低的偏差,特别是在实际场景中dU通常超过数百的情况下。

3.2.1 基于svd的属性降维

尽管算法1避免了为所有节点对构建多尺度属性亲和力(MSA),但在处理具有大量属性集的属性二分图(ABGs)时,也就是当dU较大时,它仍然面临巨大挑战。回想一下,算法1的主要计算开销位于第3-4行和第7-8行,分别需要O(γ|E|dU)O(dU3+|U|dU2)时间。因此,当dU较大时,例如dU=O(|U|),算法1的计算复杂度急剧增加至三次方,使其在大规模ABGs中变得不实用。为了解决这个问题,通过将输入属性向量XU的维度从dU降低到一个更小的常数d来提炼它们 (ddU)。这种方法旨在确保 d 维近似XU仍然能够根据方程(1)准确地保留MSA。这种调整将计算成本降低到线性时间复杂度O(γ|E|+|U|),因为d是一个常数。为了实现这个想法,首先对XU应用 top-d 奇异值分解(SVD),得到分解结果XUΓΣΨ。利用Ψ的列正交(半酉)属性,即ΨΨ=I,有XUXUΓΣΨΨΣΓ=ΓΣ2Γ,这意味着:

  • 奇异值分解(SVD):一种将矩阵分解为三个特定矩阵的因子的线性代数技术。
  • 列正交(半酉)属性:指的是矩阵的列向量彼此正交,并且通常是单位向量。

(15)XU=ΓΣR|U|×d,

这可以作为算法1输入XU的低维替代品。沿着这条线,可以通过简单地将XU替换为XU,在算法1的第2-4行的迭代过程中推导出特征向量ZU的低维版本Zu,即:

ZU=(1α)r=0αr(LuLu)rXu.

引理 3.3. 设ΓΣΨXU的精确 top-d奇异值分解(SVD)。

|ZU[i]ZU[j]ZU[i]ZU[j]|σd+12DU[i,i]DU[j,j]1α

对每一对节点ui,ujU都成立,其中σd+1XU的第(d+1)个最大奇异值。

引理3.3建立了ZU的近似保证,从理论上保证了Eq.(1)中定义的MSA的精确近似。除了保留MSA和减少计算负载的能力之外,这种基于SVD的技巧可以通过与主成分分析(PCA)的密切联系,令人惊讶地去噪属性数据以增强聚类,正如在第4.2节中的实验所验证的那样。

3.3 贪婪正交NMF

image

在构建RR|U|×2d(如果未应用第3.2.1节中的降维,则d=dU)之后,TPO 将其传递给第二阶段,即对R进行正交非负矩阵分解(NMF),如方程(11)所述,以创建Υ。对此问题的伪代码在算法2中给出,使用交替框架迭代更新ΥH,以优化方程(11)中的目标函数(第3-5行)。具体而言,给定迭代次数Tf以及HΥ的初始估计,在每次迭代中,首先在固定Υ的情况下,按照方程(16)更新H中的每个(j,)-元素(1j2d1k),然后更新Υ[i,],对于uiU1k,按照方程(17)进行,此时H保持固定。

(16)H[j,]=H[j,](RΥ)[j,](H(ΥΥ))[j,]

式16表示,固定Y,逐步调整H矩阵,使得YH更接近于原始矩阵R

(17)Υ[i,]=Υ[i,](RH)[i,](Υ(Υ(RH)))[i,]

式17表示,固定H,逐步调整Y矩阵。

上述用于求解方程(11)的更新规则可以通过利用辅助函数方法[32]以及凸优化中的拉格朗日乘数法来推导,其收敛性由单调性定理[10]保证。注意,重新排序了方程(16)和(17)中的矩阵乘法HΥΥΥΥRH,分别变为H(ΥΥ)Υ(Υ(RH)),以避免实现2d×|U|密集矩阵HΥ|U|×|U|密集矩阵ΥΥ。因此,更新HΥ在方程(16)和(17)中的计算复杂度降低到每次迭代O(|U|dk+|U|k2)

由于ΥH需要多次迭代才能收敛,尤其是当它们被随机初始化时,上述计算仍然相当昂贵。采用贪婪播种策略(一种选择初始值以加速优化算法收敛的策略)来加速收敛,这在许多优化问题中都有应用。也就是说,以快速但理论上合理的的方式谨慎选择ΥH的良好初始值。如算法1的第1-2行所述,设置ΥH如下:

(18)Υ=Γ,H=ΨΣ,

其中ΓΨ分别是R的top-k个左奇异向量和右奇异向量,Σ是一个对角矩阵,其对角线元素是R的top-k个奇异值,这些值是通过调用截断随机奇异值分解(SVD)算法[19],配合Rk获得的。请注意,这个例程需要O(|U|dk+(U+d)k2)时间[19],并且由于其随机算法设计以及底层高度优化的矩阵操作库(LAPACK 和 BLAS)可以在实践中高效地完成。

鉴于奇异向量Υ=Γ是列正交的,即ΥΥ=I,Eckart-Young 定理[15](附录A中的定理A.1)明确指出,当对ΥH的非负约束被放宽时,方程(18)为方程(11)提供了最优解。换句话说,方程(18)立即为在方程(11)中的优化目标提供了一个粗略的解决方案,从而大幅度减少了第3-5行所需的迭代次数。

  • Eckart-Young 定理:一个关于最佳低秩逼近的定理,表明在一定条件下,奇异值分解可以提供最佳的低秩矩阵逼近。
  • 截断随机SVD算法:一种用于近似大型矩阵的SVD的算法,特别适用于处理具有大量数据的情况。

3.4 高效的NCI生成

image

在最后阶段,TPO 通过最小化算法2返回的Υ与目标 NCI 矩阵Y之间的“差异”来生成 NCI 矩阵Y。回想方程(9),最初的目标是找到一个|U|×kNCI 矩阵Y和一个2d×k非负矩阵H,使得总的平方重构误差RYHF2=uiUj=1d(R[i,j]Y[i]H[j])2最小化。考虑到ΥY的连续版本(放宽方程(10)中的约束),RΥHF2能够获得比RYHF2更低的重构误差。因此,方程(9)的理想解Y确保RYHF2紧密近似于方程(11)中的RΥHF2。从数学上讲,将矩阵Υ转换为 NCI 矩阵Y可以表述为最小化它们重构误差的差异,即|RYHF2RΥHF2|=|trace((YYΥY)RR)|,根据引理 3.4。

引理 3.4. 以下等式成立:

(19)|RYHF2RΥHF2|=|trace((YYΥY)RR)|

进一步,将问题重新表述为:

(20)minΦ,Y||ΥΦY||2 s.t.ΦΦ=I and Y is an NCI matrix,

这意味着,如果 NCI 矩阵Yk×k行正交矩阵Φ最小化ΥΦY2,那么YYΥΥΥΦΦΥΥΥ0成立,因此方程(19)中的目标损失被最小化。

为了解方程(20),在 TPO 中开发了算法3,它通过迭代框架获得 NCI 矩阵Y,在该框架中,ΦY以交替方式被细化直到收敛。最初,算法3以矩阵Υ和迭代次数Tg作为输入,并初始化Φk×k单位矩阵(第1行)。然后它在第2-7行启动一个迭代过程来共同细化YΦ。具体来说,在Tg次迭代中的每一轮中,TPO 首先通过(第4行)确定每个节点uiU的聚类ID。

(21)=argmax1kΥ[i]Φ[:,]

然后更新节点ui的聚类指标Y[i],如下所示(Line 5):

(22)Y[i,]={1if=,0otherwise,1k.

Y中的每一列随后进行了L2-归一化,即:

(23)1kuiUY[i,]2=1,

根据方程(10)中 NCI 约束(第6行),Y中的每一列随后进行了L2-归一化。简而言之,第3-6行通过在固定Φ的情况下更新Y来优化方程(20)。解释一下,回想方程(10)中 NCI 矩阵Y的约束,Y的每一行只有一个非零项。因此,通过定位第i行的ΥΦ中对应项(ΥΦ)[i,]最大的列 ID(即,方程(21)),并且同时按照第5-6行的方程(22)和(23)更新Y[i],方程(20)中ΥΦY之间的距离自然就被最小化了。

有了经过细化的Y,接下来的工作变成了更新k×k矩阵Φ,以优化

minΦΥΦY2s.t.ΦΦ=I.

给定Y,利用文献[61]中的引理 4.14,这个问题的最小化解是Φ=ΥY。因此,在第7行,Φ被更新为ΥY

在重复了Tg次迭代上述程序之后,TPO 返回Y作为最终的聚类结果。实际上,一打(大约十二次)迭代足以产生高质量的Y,这一点在第4.3节中得到了验证。

个人总结:简单来说就是使用NMF处理二部图聚类问题。在算法中引进了亲和力计算公式(亲和力计算的时候只考虑了一阶邻居,没有加入高阶的网络结构信息);改进了矩阵维度过大计算效率低的问题。这种传统处理方法的公式对我来说属实有点费劲。

posted @   silvan_happy  阅读(35)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示