NLP中的分布式表示distributional representation和分散式表示distributed representation

有一个分布式假设distributional hypothesis：

Linguistic items with similar distributions have similar meanings。

如果两个词的上下文相似，那么这两个词的语义就相似。

所有用这种假设学习到的向量都叫做distributional representation。

关于representation我也是有一天才猛然醒悟，它就是表示，表征。自然语言里面的字是表征，它变成onehot vector也是表征，通过word2vec学习到的向量也叫表征。

注意，还有一个很像的术语叫Distributed表示(Representation)。它其实就是指的是用稠密的低维向量来表示一个词的语义，也就是把语义”分散”到不同的维度上。与之相对的通常是one-hot表示，它的语义集中在高维的稀疏的某一维上。（这一句话来自李理老师的博客：http://fancyerii.github.io/2023/02/20/about-chatgpt/ ）

distributional 具有统计上的意思，distributed没有。（这一句话总结字邱锡鹏教授的知乎：https://zhuanlan.zhihu.com/p/22386230）

posted @ 2023-03-09 16:25 地球美好不阅读(108) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

AudreyXu

NLP中的分布式表示distributional representation和分散式表示distributed representation

公告