CBOW应该被翻译为什么好?

*1301.3781.pdf (arxiv.org)

bengio03a.dvi (jmlr.org)

在读了上面两篇文章的部分内容后,我觉得译为 “连续词向量融合模型” 可能好点,理由有如下几点:

1.BOW的含义根据文章中提到的是:在目标词(target word)之前的出现的词的顺序对这些词从独热向量的表示方法映射到词向量(distributed representation of word,namely word embedding)的表示方法是没有影响的,如下面的截图中第一个高亮部分所示。

所以我们可以把bag理解为装着词向量的袋子,这些袋子里面的向量不是整整齐齐的,而是乱的(买了一袋子瓜子,这袋子瓜子肯定不会是正方形的)。

 

2.现在在来理解一下C(continuous)。正如上面第二个高亮部分描述的那样,CBOW使用了连续分布的背景词(背景词这个译法很好的解释了CBOW的工作原理:通过文本(背景)预测中心词),我们知道,第二个链接所提到的模型中只使用了过去的词作为背景词,

 

如下图所示,模型是没有使用未来的词(目标词后面的词) 作为输入的。

 

而CBOW中的C应该是来自使用来了未来的词作为输入而得名,而不是从过去到现在就戛然而止了,所以译为连续恰到好处:

使用了未来的词:

 

另外文中也提到了:“all word get projected into the same position (their vectors are averaged )”,另外在结合standFord的cs244n的note,我认为这个bag of word 不应该直译,应该体现一种一堆词向量在一个袋子里面,而且CBOW在把背景词映射到词向量之后是会把所有词向量进行求和取平均的,所以为了更好的体现这个效果,我认为可以把"bag of word”译为“词融合”,“融合”既体现了词向量之间的聚拢与交错(我可以交换位置相加),又体现了这个求和平均的操作,所以我觉得CBOW应该译为“连续词向量融合模型”或许会更容易理解,而不是“连续词袋模型”这样的让人有点费解的直译。

 

所有的词都会被映射到一个相同的位置,也就是说,词映射后的得到的向量会进行求和平均操作。

 

 

对词向量进行求和平均:

 

 

posted @ 2022-01-23 18:20  Hisi  阅读(107)  评论(0编辑  收藏  举报