[转] GloVe公式推导

from: https://pengfoo.com/post/machine-learning/2017-04-11

GloVe(Global Vectors for Word Representation)是斯坦福大学发表的一种word embedding 方法，GloVe: Global Vectors for Word Representation，它看起来很new，其实有着old school的内核。GloVe尝试借鉴NNLM和word2vec的优势来弥补旧方法的劣势，取得了不错的效果。该文发表于word2vec之后，其方法内核比较朴实和简单，实现也颇有粗暴之处。官方实验中，GloVe是略胜w2v一筹的，至于实际应用如何，还是建议再进行试验，或者作为一种算法补充。

个人实验中，GloVe是略逊于w2v的，不过一来是肉眼debug，二来场景并不是十分典型的NLP场景，故见仁见智，仍然建议再做实验再来定夺。

Word Representation 历史

自然语言处理（Natural Language Processing），曾经也叫做“Computational linguistics”。从名字就能看出，核心就在于让language变得computational，在可以计算的前提下，一切计算机/数学方法才得以使用。

这就是word representation的出发点，将language/paragraph/sentence/word/character 用数学形式来表示。目前通常采用的representation形式是向量形式。

简单梳理一下word representation的历史，了解各方法的背景和之间联系，有助于对word embedding有更好的理解，以及更好地理解GloVe。

Non-distributed Representation

One-hot Encoding

最简单的编码方式当然是one hot 形式，每个词独占一个维度，每个词向量有一个维度是1，其他为0，词向量的维度是vocabulary的长度。
如句子'a dog is not a cat'中，按照one hot encoding，有：

vocab = ('a', 'dog', 'is', 'not', 'cat') 
a = [1, 0, 0, 0, 0]
dog = [0, 1, 0, 0, 0]
is = [0, 0, 1, 0, 0]
not = [0, 0, 0, 1, 0]
cat = [0, 0, 0, 0, 1]

One hot 编码的特点是假设所有的word互相独立，这是一个很强的假设，显然在有些任务中并不合适，如词语相似度方面，dog和cat的相似度应当比dog和not高，但是在one hot中，他们都是0。

One-hot的优缺点

One hot encoding的优点：

至少让word 有了一个向量表示，让语言可以计算
one hot encoding 很稀疏，在一些对稀疏数据友好的问题（如部分分类问题）有比较不错的效果

One hot encoding的缺点：

假设太强，许多NLP task不适用
对大词库的language建模，向量维度太大，难以储存
无法加入新词

在One hot encoding的缺点中，无法加入新词的原因是，一个维度只表达一个word的信息，一个word的信息也只由一个维度表达，满足这个映射特性的word representation叫做Non-distributed Representation，也叫做Localist Representation。

Distributed Representation

与Non-distributed Representation相对地，有Distributed Representation的概念。Distributed Representation的意思是，描述language的向量是定长的（fix-length），在定长的向量中，一个语义信息可能由多个维度共同决定，一个维度也可能决定着多方面的语义信息。此时，word vector就比较稠密（dense），不再像one-hot encoding一样稀疏。

在这种表示方法下，word vector可以大大缩短向量长度，因此，通常得到Distributed Representation的word vectors的方法也叫做word embedding方法（直译即词嵌入，将word的语义信息嵌入fix-length的向量中）。

矩阵分解方法

以下内容需要线性代数和矩阵分解的相关知识
对推荐系统的矩阵分解算法有了解会更有利于理解这部分内容

Word都出现在document中，应用bag-of-words[5]或者sliding window，可以得到cooccurence matrix，如：
对于如下的三句话的语料：

I enjoy flying.
I like NLP.
I like deep learning.

有共现矩阵：

对该共现矩阵进行SVD分解[6][7][8]来降维。
SVD是一个常见的矩阵分解算法，其基本原理如下：

D a t a m * n = U m * m * S m * n * R n * n

奇异值类似主成分，在实际应用中，往往取top k个奇异值就能够表示绝大部分信息量，因此SVD经常拿来做损失较小的有损压缩：

D a t a m * n = U m * k * S k * k * R k * n

如果想更深入理解SVD，推荐[6][7][8]三篇文章

用代码来实际跑一下：

import numpy as np  
import matplotlib.pyplot as plt  
la = np.linalg  
words = ["I","like","enjoy","deep","learning","NLP","flying","."]    
X=np.array([[0,2,1,0,0,0,0,0],
            [2,0,0,1,0,1,0,0],
            [1,0,0,0,0,0,1,0],
            [0,1,0,0,1,0,0,0],
            [0,0,0,1,0,0,0,1],
            [0,1,0,0,0,0,0,1],
            [0,0,1,0,0,0,0,1],
            [0,0,0,0,1,1,1,0]])    
U,s,Vh=la.svd(X,full_matrices=False)    
plt.axis([-0.8,0.2,-0.8,0.8])    
for i in xrange(len(words)):  
    plt.text(U[i,0],U[i,1],words[i])  
plt.show()

结果如图下，可以看到，对三个句子的语料，已经有一点点语义距离的关系在里面了，比如enjoy和like在方向上是一致的，两个动词距离比较接近等等。

矩阵分解的优缺点

矩阵分解方法的优点是：

训练速度很快
能够实现word embedding

其缺点也很明显：

因为仅关注cooccurence，word vector包含的词向量语义信息有限，仅仅能进行词语相似度计算等有限的任务。

NNLM 以及 word2vec

于是发展到了用language model来搞事情的时代。
word vectors是LM的副产品，本来LM是用来做language modeling的。
这个方法出奇的好，因为lm相当于做了sentence粒度的modeling，对词语在语义空间上的建模更充分。
更多的话题不详细展开了，也不是本文重点，注意nnlm和word2vec的几个关键：

求解max log likelihood作为object func
pair-wise应用SGD的求解过程

他们的好处是：

有了更多语言学层面的支撑，在更多NLP task上表现更好
pair-wise的求解对计算资源很友好

但是，也有一些缺点：

context 很小，没有使用全局的cooccur，所以实际上对cooccur的利用很少

GloVe

GloVe发明的初衷，就是想结合两者的长处，搞出一个充分利用统计量的更好train的适用程度更广的word embedding方法。

动机

我们注意到，在篇章中，语义距离相近的词，共现次数多，语义距离远的词贡献次数少。见图下：

然而可以看到的是，区分度不算高。于是想到，能否用共现之间的比值来增大区分度？
对于

如果ij很相关，ik不相关，那么
如果ij很相关，ik也不相关，那么

对应图上的数据，可以看到区分度已经好很多。

这就是GloVe的动机，对word-pair cooccur进行建模，拟合不同word-pair的cooccur之间的差异。

模型推导

根据GloVe的思想，我们关注：

F (w i, w j, w ~ k) = P i j P j k

其中，取

在word2vec中，context vector最终被舍弃，但是由于GloVe的context只有一个word，所以这个context word vector也是一个word vector的，更加有趣的是，后面可以看到，在GloVe中，公式是完全对称的，所以两个word vector理论上拥有同样的表示能力，是同一个语义空间下的word representation。

因为一个好的word vector应当是线性可加减的，因此对于word之间的差异，可以用减法来进行衡量，可以~~拍脑门~~一个公式，将

F (w i - w j, w ~ k) = P i j P j k

F ((w i - w j) T w ~ k) = P i j P j k

回到问题本身，我们是基于cooccur进行计算，实际上在一次共现中

首先，想要公式能够对称，先让其拥有结构不变性，可以给未知的

F ((w i - w j) T w ~ k) = F ( w T i w ~ k ) F ( w T j

选择除法有几个原因，一个是这样的同态变换好找(exp就是这样一个变换)，二是和(5)式在形式和参数上都能完美符合.

(5)式和(6)式相对应的，有：

F (w T i w ~ k) = P i k = X i k X i

F = e x p

w T i w ~ k + b i + b ~ k = l o g (X i k)

很容易得到Object function，一个典型的square loss：

J = \sum i, j = 1 V (w T i w ~ j + b i + b ~ j - l o g (X i j

当然此时还有问题，共现矩阵是很稀疏的，大部分共现都是0，需要合理的loss加权，对共现多的词给予更高关注，GloVe给了一个weighted square loss：

J = \sum i, j = 1 V f (X i j) (w T i w ~ j + b i + b ~ j - l

f (x) = {(x / x m a x) α

意思是，在共现超过阈值后，其loss的权重维持在1.0的不变水平。当然，这也横生了两个超参：

至此，GloVe推导完毕。过程到处充满了蛮横无理，最终形式倒出奇的还蛮好看。

两个词向量

上面说到，GloVe每个词涉及到两个词向量，一个词语本身的向量

“这样损失了一些模型的可解释性，但是模型表现更好了”，助教在该校CS224N 2017 winter课程中如是说。

十分暴力，但无法反驳。

GloVe 和其他模型的关系

当看到GloVe拍脑门找到

GloVe 使用

GloVe已经在github开源，源码以及binary可以在GloVe Github找到。
GloVe的代码写的比较糙，每一步是独立的程序，因此要按照以下步骤进行：

运行./vocab_count 进行词频统计
运行./cooccur 进行共现统计
运行./shuffle 进行打散
运行./glove 进行训练词向量

具体参数和word2vec比较类似，具体用法可以见
https://github.com/stanfordnlp/GloVe/blob/master/demo.sh。

Reference

[1] (Paper) GloVe: Global Vectors for Word Representation
[2] CS224N Lecture 3 | GloVe: Global Vectors for Word Representation
[3] GloVe Github
[4] word co-occurrence and theory of meaning
[5] Bag-of-words_model
[6] 奇异值分解(SVD)原理详解及推导
[7] 强大的矩阵奇异值分解(SVD)及其应用
[8] We Recommend a Singular Value Decomposition

费尽心思写了一个自己不那么喜欢的模型感觉有些奇怪，不过这是一篇很励志的paper和算法，它告诉我两个道理：
1. 发吊文章不一定需要特别吊的算法，也可以在老算法上改进一下，没准就很厉害
2. 斯坦福的厉害人物偶尔也会划划水
当然GloVe本身很厉害，只是写完了文章，调侃一下。

posted @ 2019-04-23 14:49 凌波微步_Arborday 阅读(718) 评论(0) 编辑收藏举报

刷新页面返回顶部

凌波微步_Arborday