word2vec 论文讲解 - b站深度之眼

https://www.bilibili.com/video/BV1A7411u7zh?p=4&vd_source=db1f7cb82e86cfc9050cdc20ec10c8ab

前置知识

one-hot
SVD（Singular Value Decomposition）奇异值分解
Distributed Representation 分布式表示/稠密表示
Word Embedding 词向量/词嵌入
意义：
- 衡量词相似程度，词类比（中国-北京）
- 作为预训练任务提升其他任务效果
N-gram模型， https://zhuanlan.zhihu.com/p/32829048

前置知识

语言模型概念：
- 衡量一个句子是句子的概率，的模型。
基于专家语法规则的语言模型：
- 不够通用
统计语言模型：
2个问题：
- 没有出现过的语料；
- 句子太长
平滑操作： laplace 加一平滑
平滑之后的问题：
- 参数空间过大，解决方案：马尔可夫假设
- 数据稀疏严重
评价指标：
- 困惑度：句子概率越大，困惑度越小

对比方法

NNLM（neural network language model）：
- 根据前n-1单词预测第n个单词概率，concat-hidden-softmax-output层
- 优化：使得输出单词概率最大
- 输入层：1 x V的句子，乘以V x D的矩阵，得到的1 x D的向量，其实one-hot对应的那一个下标就是V x D矩阵中对应的那一行，其他都乘以0了
- tips： Loss函数和困扰度公式表示一样
- 网络结构回顾：
  - 仅对一部分输出进行梯度传播（比如对于一些例如the a and的词汇不进行或者降低梯度传播）
  - 引入先验知识，如词性等（实验证明，模型在一定规则下也可以对词性进行自主学习）
  - 解决一词多义的问题
  - 加速softmax层。（1、层次softmax 2、负采样）
RNNLM 类似的
skip-gram
核心：中心词矩阵，周围词矩阵

posted @ 2022-10-10 18:32 种树人阅读(115) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部