图嵌入概述:节点、边和图嵌入方法及Python实现

近年来基于图的机器学习有了很大的发展。基于图的方法在数据科学中的许多常见问题中都有应用,例如链接预测、社群发现、节点分类等。根据如何组织问题和所拥有的数据,有许多解决问题的方法。本文将提供一个基于图的嵌入算法的高层次的概述。最后还将介绍如何用Python库(如node2vec)来在图上生成各种嵌入。

基于图的机器学习

人工智能有各种分支,从推荐系统、时间序列、自然语言处理、计算机视觉、图机器学习等。有多种方法可以通过基于图的机器学习来解决常见问题。包括社群发现、链接预测、节点分类等。

与图机器学习的一个主要问题是找到一种表示(或编码)图结构的方法,以便机器学习模型可以轻松地利用它[1]。一般情况下机器学习中解决这个问题需要通过与模型相关联的结构化表格数据来学习某种表示,这在以前是通过统计测量或核函数来进行的。近年来趋势已经转向对图进行编码以生成嵌入向量来训练机器学习模型。

机器学习模型的目标是训练机器在数据集中大规模学习和模式识别。在处理图时这一点会被放大,因为图提供不同而复杂的结构,这是其他形式的数据(如文本、音频或图像)所不具备的。基于图的机器学习可以检测并解释重复出现的潜在模式[2]。

我们可能对确定与社交网络上的用户相关的人口统计信息感兴趣。人口统计数据包括年龄、性别、种族等。像Facebook或Twitter这样的公司的社交媒体网络范围从数百万-数十亿的用户和数万亿的边。肯定会有几个与该网络中用户的人口统计信息相关的模式,这些模式不容易通过人类或算法检测到,但模型应该能够学习它们。类似地,我们可能想推荐一对用户成为朋友,而他们目前还不是朋友。这就为链接预测(基于图的机器学习的另一个应用)提供了素材。

posted @ 2022-11-10 10:35  deephub  阅读(88)  评论(0编辑  收藏  举报