Item2vec 方法的特点和局限性
1. Item2vec 作为 Word2vec 模型的推广,理论上可以利用任何序列型数据生成物品的 Embedding 向量, 这大大拓展了 Word2vec 的应用场景。广义上的 Item2vec 模型其实是物品向量化方法的统称,它可以利用不同的深度学习网络结构对物品特征进行 Embedding 化。
2. Item2vec 方法也有其局限性,因为只能利用序列型数据,所以 Item2Vec 在处理互联网场景下大量的网络化数据时往往显得捉襟见肘,这就是 Graph Embedding 技术出现的动因
Graph Embedding – 引入更多结构信息的图嵌入技术
Item2vec 是建立在 “序列” 样本 (e.g. 用户行为序列) 的基础上的。而在互联网场景下,数据对象之间更多呈现的是图结构。典型的场景是由用户行为数据生成的物品关系图,以及由属性和实体组成的知识图谱 (Knowledge Graph)。在面对图结构时,传统的序列 Embedding 方法就显得力不从心了。在这样的背景下,Graph Embedding 成了新的研究方向,并逐渐在深度学习推荐系统领域流行起来。
Graph Embedding 是一种对图结构中的节点进行 Embedding 编码的方法。最终生成的节点 Embedding 向量一般包含图的结构信息及附近节点的局部相似性信息。
DeepWalk 的主要思想是在由物品组成的图结构上进行随机游走,产生大量物品序列,然后将这些物品序列作为训练样本输入 Word2vec 进行训练,得到物品的 Embedding。因此,DeepWalk 可以被看作连接序列 Embedding 和 Graph Embedding 的过渡方法。
时刻记着自己要成为什么样的人!