NLP中的分布式表示distributional representation和分散式表示distributed representation

有一个分布式假设distributional hypothesis:

Linguistic items with similar distributions have similar meanings。

如果两个词的上下文相似,那么这两个词的语义就相似。

所有用这种假设学习到的向量都叫做distributional representation。

 

关于representation我也是有一天才猛然醒悟,它就是表示,表征。自然语言里面的字是表征,它变成onehot vector也是表征,通过word2vec学习到的向量也叫表征。

 

注意,还有一个很像的术语叫Distributed表示(Representation)。它其实就是指的是用稠密的低维向量来表示一个词的语义,也就是把语义”分散”到不同的维度上。与之相对的通常是one-hot表示,它的语义集中在高维的稀疏的某一维上。(这一句话来自李理老师的博客:http://fancyerii.github.io/2023/02/20/about-chatgpt/ )

 

distributional 具有统计上的意思,distributed没有。(这一句话总结字邱锡鹏教授的知乎:https://zhuanlan.zhihu.com/p/22386230)

posted @ 2023-03-09 16:25  地球美好不  阅读(108)  评论(0编辑  收藏  举报