Word embedding

1. 背景知识

2. 如何实现word embedding?

3. 预测架构来生成 word vector

4. word vector的有趣现象

5. 文章的编码

1. 背景知识

我们在处理语言之前，需要先把字符转化为向量，怎么做呢？

word embedding的原理：

一个词，可以后上下文找到这个词的语义。

对了，这里有个小知识： “潮水” 中，潮是一个字，而“潮水”才是一个词。

2. 如何实现word embedding?

prediction based 的训练方式：

如果问题集里面有十万个词，那么这个network 的输出就是一个十万维的向量。

3. 预测架构来生成 word vector

预测下文的预测模型来生成word vector

一般上面的这个神经网络是一个一维的，提出者表示，没必要是deep的

其他的预测模型

4. word vector的有趣现象：

5. 文章的编码

方法一：bag of word

把文章的bag of word 丢到auto-encoder里面就可以得到文章的embedding了

但是词之间的顺序是很重要的，同样的bag of word 可能有不同的意思

Reference:

posted @ 2019-09-06 20:54 Oliver-,- 阅读(814) 评论(0) 编辑收藏举报

刷新页面返回顶部

光和影子