词向量的维度应该怎么选择

在之前的文章《最小熵原理（六）：词向量的维度应该怎么选择？》中，我们基于最小熵思想推导出了一个词向量维度公式“ $n > 8.33 \log N$

既然理论上看上去很完美，那么自然就有读者发问了：实验结果如何呢？8.33这个系数是最优的吗？本文就对此问题的相关内容做一个简单汇总。

词向量 #

首先，我们可以直接，当 $N$

事实上，像FastText之类的开源词向量是300维，也没法否定128维能够达到类似效果的可能性。至于BERT，它本身并不是一个词向量模型，所以它选多少维跟词向量维度的选择也没有直接关系，何况ALBERT已经表明，将Embedding层进行低秩分解（降到128维）几乎不会改变模型效果，因此BERT的768维Embedding多多少少是有冗余的。

关于词向量的评价，2015年有一篇比较全面的论文《How to Generate a Good Word Embedding?》可以参考，文中显示其实词向量在超过50维之后的提升就比较弱了，这也算是 $n > 8.33 \log N$

$n > 8.33 \log N$

posted on 2024-01-29 14:49 ExplorerMan 阅读(70) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

ExplorerMan

词向量的维度应该怎么选择

词向量 #

导航

公告