词向量

分词：把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。

停用词：搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为Stop Words(停用词)。如常见的“的”、“在”、“和”、“接着”之类

词嵌入（word embedding)：把文本转换成数值形式，或者说——嵌入到一个数学空间里，而 Word2vec，就是词嵌入（ word embedding) 的一种

词向量：一个单词所对应的向量，向量之间的数学关系可以表示单词之间的语义关系

单词表示法：

one-hot representation：

缺点：稀疏；不能表示单词之间的联系

分布式表示方法ii：将单词映射到semantic space中

泛化generalization：不仅模型在训练数据上表现好，测试数据上也好；局部泛化容易造成过拟合，全局泛化不会

下面2个模型都是基于：一句话中，单词离得越近则相似度越大的原理

p（是 | 我）：我是中心词，是是上下文，由于一个单词可能是中心词或上下文，因此一个单词对应2个词向量。

Uc：单词c在U中的词向量,C’是所有的单词

x0= argmax(f(x))：表示当函数f(x)取x=x0的时候，得到f(x)的最大值

sg目标函数：

posted @ 2021-02-05 00:13 Jary霸阅读(518) 评论(0) 收藏举报

刷新页面返回顶部

aaa2222339