词向量和语言模型

词向量是用来干什么的？

①有人拿它寻找近义词或者相关词，直接根据向量空间里的距离远近来判定词的关系。②也有不少早期的工作，直接拿词向量做特征，在现有系统中加入词向量作为特征。特征嘛，就是要个多样性，虽然不知道词向量包含了什么信息，但是说不定就带着新的信息，效果就能提升了。③还有大量基于神经网络的工作，拿词向量作为神经网络的初始值。神经网络的初始值选得好，就有可能收敛到更好的局部最优解。好，就是这三种指标了：语义特性、用作特征、用作初始值

模型、语料、参数三方面会影响词向量的训练：

　　模型方面，因为所有的词向量模型都是基于分布假说的（distributional hypothesis）：拥有相似上下文的词，词义相似。这里有两个对象，一个是我们需要关注的词（目标词），另一个是这个词对应的上下文。所以，我们从两个角度去总结模型：1.目标词和上下文的关系，2.上下文怎么表示。在这种分类体系下，我们对现有的主流词向量模型进行了总结和比较，发现，目标词和上下文的关系主要有两种，大多数模型都是根据上下文，预测目标词。而 C&W 模型则是对目标词和上下文这一组合，打分。实验发现，通过上下文预测目标词的模型，得到的词向量，更能捕获替换关系（paradigmatic）。在上下文的表示方面，我们分析了几种表示方法之后，发现可以通过模型复杂程度对这些模型进行排序。排序之后，实验结果就容易解释了：简单的模型（Skip-gram）在小语料下表现好，复杂的模型在大语料下略有优势。从实践中看，word2vec 的 CBOW 模型在 GB 级别的语料下已经足够好。我前面提到的 Order 模型，加入了词序信息，其实很多时候比 CBOW 更好，不过带来的提升并不大。

　　语料方面，很多论文都提到语料越大越好，我们发现，语料的领域更重要。领域选好了，可能只要 1/10 甚至 1/100 的语料，就能达到一个大规模泛领域语料的效果。有时候语料选的不对，甚至会导致负面效果（比随机词向量效果还差）。文章还做了实验，当只有小规模的领域内语料，而有大规模的领域外语料时，到底是语料越纯越好，还是越大越好。在我们的实验中，是越纯越好。这一部分实验数据比较丰富，原文相对清楚一些。

　　参数方面，主要考虑了迭代次数和词向量的维度。其实词向量都是迭代算法，一般迭代算法都需要多迭代几次。旧版的 word2vec 只迭代了一次，效果很受限制，换新版就好了（也欢迎用我们论文实验的方法，用 AdaGrad 优化，相比原版 word2vec 的学习速率下降法，这样还能在之前的基础上继续迭代）。然后迭代次数怎么选呢？机器学习里很常用的迭代停止指标是看验证集的损失是否到达峰值，认为这个时候模型开始过拟合了。按照这个方法，我们可以从训练语料中分出一个验证集看损失函数的变化。但是实验中我们发现，这种策略并不好。主要原因就是，训练词向量的目标是，尽可能精确地预测目标词，这一目标和实际任务并不一致。所以更好的方法是，直接拿实际任务的验证集来做终止条件。如果实际任务做起来很慢（比如 NER 任务的开源实现大概做一次要两小时），文章还给了一种参考的方法，随便挑一个任务当验证集用，一般都比损失函数靠谱。
　　词向量的维度则只有一些实验结果。做词向量语义分析任务的时候，一般维度越大效果越好。做具体 NLP 任务（用作特征、用作神经网络初始化）的时候，50 维之后效果提升就比较少了。这部分的结果很依赖于具体任务的实现，或许用上了更先进的神经网络优化方法，词向量作为初始值带来的影响又会有新的结论。

套路一：

首先根据具体任务，选一个领域相似的语料，在这个条件下，语料越大越好。然后下载一个 word2vec 的新版（14年9月更新），语料小（小于一亿词，约 500MB 的文本文件）的时候用 Skip-gram 模型，语料大的时候用 CBOW 模型。最后记得设置迭代次数为三五十次，维度至少选 50，就可以了。

gensim.models.Word2Vec()，参数说明在这里，其中sg (int {1, 0}) – Defines the training algorithm. If 1, skip-gram is employed; otherwise, CBOW is used.

参考博客

posted @ 2018-03-16 22:36 baibaibaiyou 阅读(301) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

词向量和语言模型

公告