word2vec 论文讲解 - b站深度之眼

https://www.bilibili.com/video/BV1A7411u7zh?p=4&vd_source=db1f7cb82e86cfc9050cdc20ec10c8ab

前置知识

  • one-hot
  • SVD(Singular Value Decomposition) 奇异值分解
  • Distributed Representation 分布式表示/稠密表示
  • Word Embedding 词向量/词嵌入
  • 意义:
    • 衡量词相似程度,词类比(中国-北京)
    • 作为预训练任务提升其他任务效果
  • N-gram模型, https://zhuanlan.zhihu.com/p/32829048

前置知识

  • 语言模型概念:

    • 衡量一个句子是句子的概率,的模型。
  • 基于专家语法规则的语言模型:

    • 不够通用
  • 统计语言模型:

  • 2个问题:

    • 没有出现过的语料;
    • 句子太长
  • 平滑操作: laplace 加一平滑

  • 平滑之后的问题:

    • 参数空间过大,解决方案:马尔可夫假设
    • 数据稀疏严重
  • 评价指标:

    • 困惑度:句子概率越大,困惑度越小

对比方法

  • NNLM(neural network language model):

    • 根据前n-1单词预测第n个单词概率,concat-hidden-softmax-output层

    • 优化:使得输出单词概率最大

    • 输入层:1 x V的句子,乘以V x D的矩阵,得到的1 x D的向量,其实one-hot对应的那一个下标就是V x D矩阵中对应的那一行,其他都乘以0了

    • tips: Loss函数和困扰度公式表示一样

    • 网络结构回顾:

      • 仅对一部分输出进行梯度传播(比如对于一些例如the a and的词汇不进行或者降低梯度传播)
      • 引入先验知识,如词性等(实验证明,模型在一定规则下也可以对词性进行自主学习)
      • 解决一词多义的问题
      • 加速softmax层。(1、层次softmax 2、负采样)
  • RNNLM 类似的

  • skip-gram
    核心:中心词矩阵,周围词矩阵

posted @ 2022-10-10 18:32  种树人  阅读(115)  评论(0编辑  收藏  举报