[DeeplearningAI笔记]序列模型2.8 GloVe词向量

5.2自然语言处理

觉得有用的话,欢迎一起讨论相互学习~

我的微博我的github我的B站

吴恩达老师课程原地址

2.8 GloVe word vectors GloVe词向量

Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C]// Conference on Empirical Methods in Natural Language Processing. 2014:1532-1543.

  • 示例 I want a glass of orange juice to go along with my cereal

  • 定义 Xij 表示单词i在单词j上下文中出现的次数。其中i相当于Context,而j相当于Target.

    • 当定义目标单词出现在上下文单词的左或右十个单词数时,此时i和j是一种对称的关系。即有Xij=Xji
    • 因此根据此定义,得知Xij就是一个能够获取单词i和单词j出现位置相近时或彼此接近是的频率的计数器
  • 目的 Glove算法的目的就是优化

    • 此式中θiTej负采样中的式子θtTec意义相同
    • 为了解决Xij可能为0的问题(因为log0)的值为负无穷,引进了f(Xij)使得当Xij=0,f(Xij)=0,并且会使用规定0log0=0.
    • 并且 ,引入的f(Xij)可以解决有些词语例如 this, is, of, a... 等词语出现频率过高而有些名词出现频率过低导致的不平衡问题--即f(Xij)相当于一个加权因子,对于不常用的词汇也能给予大量有意义的运算,而对于出现频率过高的词汇更大而不至于过分的权重。 对于此函数的具体细节,参考标题下的参考论文。
    • Note θe现在是完全对称的,因此一种训练参数的方法是 一致的初始化θ和e 然后使用梯度下降来最小化输出,当每个词都处理完了之后取平均值。ewfinal=ew+θw2

词嵌入向量解释

  • 因为即使每行表示单词向量独特的特征,但是对于学习到的 词嵌入矩阵 其每行表示的意义不一定是 正交的 ,而是多行特征的线性表征。例如定义的第一行表示Gender,第二行表示Royal,第三行表示Age,第四行表示Food,但是实际学到的是这些特征的 使用平行四边形方法得到的线性表出 所以单独理解学到的 词嵌入矩阵 是十分困难的。
posted @   WUST许志伟  阅读(817)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
历史上的今天:
2017-08-29 tf.train.shuffle_batch函数解析
点击右上角即可分享
微信分享提示