CS 224D Lecture 3札记分类： CS224D notes 2015-07-12 12:03 5人阅读评论(0) 收藏

这几天把第三课推掉了，又到了写博客的时间，好开心，有木有

这一课主要讲了两大部分：第一大部分讲得是如何建立Object function并且如何找到optimum point；第二大部分讲的是如何评测生成的VSM的优劣。主要讲的是这两大部分，其中穿插了一些小的知识点，会在下面详细写出。

老样子，先写出Video/Slide的pipeline: Refresher: word2vec model -> Gradient Descent -> Stochastic Gradient Descent -> Skip-gram model and CBWM -> Intrinsic evaluation -> Extrinsic evaluation -> Ambiguity -> softmax and cross entropy error -> training word vectors or not?

Video/Slide

Refresher: word2vec model

这一部分主要介绍了word2vec model的cost function

就是这个东东啦，其中T代表着windows的个数，c代表着context的wide。

最右边的p使用softmax计算

w_o就是上式左边的那个w_t+j，w_I就是上式右边的w_t。

我们习惯上把所有参数全部塞到一个长长长长的vector里面这个vector我们称它为theta，这样的话上式中的cost function里的参数就得有 2d*V个了（d是每个单词向量的长度，V是单词的个数，由于输入输出单词向量表示法不一样所以是二倍的）

Gradient Descent

现在我们有了cost function就得想办法找到optimum point啦！当然最简单也是最容易想到的就是Gradient Descent，也就是对cost function的theta向量求导得到最佳下降梯度，然后用原theta减去这个梯度乘以step就得到更新后的向量了。这种方法每次找到的方向很精确，每次都能往最陡的坡度走，但是有一个问题，观察上面的公式一，我们的cost function是对所有windows进行相加，而每求一个梯度都得把所有的windows求一遍和，如果dataset小的话没什么问题，但是如果对于很大的dataset那么没步进一步的cost是很大的。所以SGD闪亮登场！

Stochastic Gradient Descent

SGD不再对整个windows的和求梯度，而是对一个window求梯度之后就立即更新theta。

这个方法灰常好啊，收敛快呀，但是每一次更新都是针对这一个window里的单词更新的，这就意味着，一次更新最多更新2c - 1 个单词的参数，也就是 (2c-1)*d个参数。这样的话就不必每次更新整个参数矩阵，仅仅更新window的单词在参数矩阵中对应的列就好了。这样的话可以很大的提高计算效率，和存储效率。

Skip-gram model and CBWM

解决了Gradient Descent的Cost大的问题，现在问题又来了（- -），上面第二个公式可以看到求概率P的时候使用到了softmax它的分母是对所有的words求和，我们的vocabulary通常是很大的，计算一次很痛苦的有木有，这个咋办呢？办法总是有的，我们观察上面的softmax的公式，可以发现，我们的目的就是让正确的word脱颖而出。那么这样的话我们取整个单词表的词就没必要了嘛，只要让正确的word的值大，其他随机的word和center word组合的值小不是一样的嘛。于是skip-gram和negative sampling组合的方式应运而生！首先我们定义了一个noise distribution用来随机选取随机的word。

其中sigma函数是sigmod函数，这很好理解目的是要两个向量靠得更近方向更一致，那么sigmod函数中两个向量靠得越近值就越大，反之越小。

CBWM类似Skip-gram的逆运算在之前的博文中也有写就不再赘述了。

其中有一个要注意的是最终我们得到了L和L‘的参数矩阵，相当于得到了这个co-occurance矩阵里单词的信息，怎么处理这两个矩阵呢？一种办法是直接相加L_final = L + L'，另一种方法是把两个矩阵连接起来，这样的结果就综合了输入矩阵和输入矩阵的信息。

Intrinsic Evaluation

Intrinsic evaluation 是对VSM的一个简单迅速的评估。这种评估方法不放到整个系统中评估，而仅仅是评估一个subtask进行评估。评估过程很快，可以很好的理解这个系统。但是不知道放到实际的系统中是否也表现的很好。Intrinsic evaluation的第一种评估是Syntactic评估，这种评估方法问题比较少；第二种是semantic评估，存在一词多义的问题，还有corpus的数据比较旧的问题，这两个问题都会影响评估结果。Glove word vector是至今Intrinsic evaluation才是结果最好的model，Asymmetric context只评估左边window的单词效果不好。More training time and more data对评估结果很有帮助。

Extrinsic Evaluation

Extrinsic evaluation就是把VSM放到实际的任务中进行评估，花费时间较长，如果效果不好的话也不清楚是VSM的问题还是其他模块的问题或者是interaction的问题。有一个简单的办法确认是不是VSM的问题，把这个subsystem用其他的subsystem替换如果精度提高那就换上！

Ambiguity

如果一个单词有很多个意思怎么办？如果你简单的就当作一个mean vector来处理那就会相当于把两个不同意思的向量进行向量相加，这显然是不准确的。解决方法在Notes讲得很详细，这里摘抄如下：

1. Gather fixed size context windows of all occurrences of the word(for instance, 5 before and 5 after)
2. Each context is represented by a weighted average of the context words’ vectors (using idf-weighting)
3. Apply spherical k-means to cluster these context representations.
4. Finally, each word occurrence is re-labeled to its associated cluster and is used to train the word representation for that cluster.

简单的说就是使用k-means聚类将如同的context先聚类出来，再给每个certriod赋相应的word，再把相应的context归给这个word，最后再用我们之前的普通训练方法训练。这就解决了一次多义的问题。

Softmax and cross entropy error

和之前一样评估一个单词发生的概率，很简单也是可以用softmax当然这个方法cost太大，所以用skip-gram更好一些。我们的目的是使得我们的参数让结果向量中ground-truth位的值最大（有点绕）。之前我们用的是sigmod函数配合内积的方法，还有一种方法也能很好的解决这个问题，那就是cross entropy error。Cross entropy可以用来评估两个概率之间差异的大小H(p, q)。我们把P代入ground-truth概率向量，q代入我们计算的概率向量，目的是使得两者差异最小也就是使H(p, q)最小。展开H(p, q) = H(p) + D_KL(p || q)。由于p本身的性质，第一项天然就会为0,不为零也没关系，因为我们是要改变q中的参数，p始终是fix的，不会影响计算结果。所以求H(p, q)就会等价为求D_KL(p || q)的最小值。

training word vectors or not?

首先摘抄notes里的一句话：Word vectors should not be retrained if the training data set is small. If the training set is large, retraining may improve performance.

为什么是这样呢？我来解释一下这句话：第一，当data set比较小的时候，我们进行Gradient Decent进行theta的更新只能更新到data set中的word其他的word的向量不用被更新到，而我们的softmax weight W是根据新的dataset进行判别的，那么这样的结果就会使dataset中不包含的word的判别出问题。第二，当data set比较大的时候，假设涵盖了整个vocabulary，我们不论是进行Gradient Decent更新theta还是对Softmax weight W进行更新就是对整个vocabulary进行更新，不会出现遗漏的问题，而这种方法增添进来了新的data set里的信息有可能会使精确度增加。

Paper -> Glove: Global Vectors for word representation

这个paper主要介绍了Glove的大致原理。大概事情是这样的，现在我们处理capture fine-grained semantic的能力和capture syntactic的能力都还不错。semantic基于term-document这样的模式效果好，syntactic基于term-document的模式效果好，但有没有一种方法能把这两个东西综合一下呢？于是Glove应运而生了！事实也证明了，这玩意胜过了similarity tasks和named entity recognition。

摘抄文中经典的一段：

While methods like LSA efficiently leverage statistical information, they do relatively poorly on the word analogy task, indicating a sub-optimal vector space structure. Methods like skip-gram may do better on the analogy task, but they poorly utilize the statistics of the corpus since they train on separate local context windows instead of on global co-occurrence counts.

Glove的目的就是要把那两个玩意综合起来一下。

怎么综合起来呢？Glove的发明人使用了一个曲线救国的迂回战术。首先从word-context出发，定义P_ij = P(j|i) = X_ij / X_i。其中X_ij是在word i的context中j出现的次数。X_i是word i的context中的单词的总个数。P_ij就是word j出现在word i的context的概率。现在定义一个probe单词k假设i,k的相关性大那么P_ik就会大，反之就小。那么我们可以得出结论如果P_ik / P_jk >> 1则k和i的相关性要远远大于k和j的相关性；如果P_ik / P_jk 约等于1那么k和i的相关性及k和j的相关性就类似；如果P_ik / P_jk << 1则k和i的相关性要远远小于k和j的相关性。

定义一个function: F(w_i, w_j, w_k(~)) = P_ik / P_jk

我们知道等式右边是从word-context出发也就是基于skip-gram类似的算法的，而等式左边是基于term-document也就是类似LSA的，也就是这样一个等式把sentiment method和syntactic method联系起来了。

推倒过程不表，paper上很详细，最后得到(w_i)'(w_k)~ + b_i + b_k(~) = log(X_ik)

为了使上式计算出的X_ij和ground truth X_ij尽可能的一致，最后构造了一个cost function

其中f(X_ij)是weight function怎么得来的就不说了，paper上很详细。

3.1和3.2分别介绍了Glove和其他模型的关系还有Gloved的计算复杂度，没啥说的。

第四部分experiment主要就是测试结果，略过不表。

Paper -> Improving Word Representations via Global Context and Multiple Word Prototypes

这个paper主要就讲了两件事：第一就是如何用Neural Network实现Global Context-Aware Neural Language Model；第二就是为了解决一次多义的问题将Multi-Prototype也引入模型。

第一部分所讲的精髓都在这里面，左边建立一个Neural Network算出a_1的值，然后score_l = W_2 * a_1 + b_2

右边先对Document里的word取weight average然后在通过右边的Neural Network求出a_2，通过右边的function求得

score_g = W_2(g) * a_1(g) + b_2(g)

最后一步图上也画了就是对两个score取sum，score = score_l + score_g

摘抄一段文中的句子：The local score preserves word order and syntactic information, while the global score uses a weighted average which the global score uses a weighted average which is similar to bag-of-words features, capturing more of the semantics and topics of the document.

第二部分就是为了解决一次多义的问题。方法如下：We then use spherical k-means to cluster these context representations, which has been shown to model semantic relations well. Finally, each word occurrence in the corpus is re-labeled to its associated cluster and is used to train the word representation for that cluster.

其实使用k-means进行预处理的方法课上的slide和notes讲的更详细，做完预处理之后之后的处理方法就和之前的处理方法一样了。

第四部分就是experiment的结果了，略过不表。

posted @ 2015-07-12 12:03 NeighborhoodGuo 阅读(331) 评论(2) 编辑收藏举报

刷新页面返回顶部

NeighborhoodGuo

CS 224D Lecture 3札记 分类： CS224D notes 2015-07-12 12:03 5人阅读 评论(0) 收藏