对于word embedding的输入，为什么要乘以 √d

转自：https://zhuanlan.zhihu.com/p/442509602

看看论文里的介绍

Similarly to other sequence transduction models, we use learned embeddings to convert the input tokens and output tokens to vectors of dimension

1.1 从Embedding开始讲起

对Embedding熟悉的可以直接跳到1.2 看结论

1.1.1 Why Embedding

Embedding在深度学习中的作用，就是构建了一个查找表。

对于一个容量为30000的字典，我们可以用 one-hot encoding 对字典中的每个字进行表示，但这样存在一些问题，比如one-hot 的表达是稀疏，因为对于其中的每一个字都需要维度为30000的向量进行唯一标识（表示）。

使用word embedding 可以将稀疏表达变为稠密表达，降低表征一个词所需要的空间维度，即

实现高纬度稀疏向量的到低纬度稠密向量的特征降维

1.1.2 How Embedding

假如，我需要将

即

基于torch 中nn.Embedding 的实现方式，nn.Embeddig.weight 默认的初始化为

8.为何在获取输入词向量之后需要对矩阵乘以embedding size的开方？
embedding matrix的初始化方式是xavier init，这种方式的方差是1/embedding size，因此乘以embedding size的开方使得embedding matrix的方差是1，在这个scale下可能更有利于embedding matrix的收敛。

模型的初始化方式使得embedding matrix 的分布为

1.2 为什么需要乘以

基于Transformer的初始化方式，正态总体Embedding matrix 的抽样分布满足：

这会导致一个问题，Embedding matrix 元素分布的方差会随着

2. 总结

embedding matrix 初始化后的方差为

posted @ 2025-02-15 12:15 有何m不可阅读(11) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· pytorch | softmax(x,dim=-1)参数dim的理解

· 学习笔记13：微调模型

· nn.Embedding torch.nn.Embedding

· nn.Embedding 的理解

· nn.Embedding()函数理解

公告

昵称：有何m不可
园龄： 1年11个月
粉丝： 4
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

gongzb

对于word embedding的输入，为什么要乘以 √d

1.1 从Embedding开始讲起

1.1.1 Why Embedding

1.1.2 How Embedding

1.2 为什么需要乘以

2. 总结

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜

gongzb

对于word embedding的输入，为什么要乘以 √d

1.1 从Embedding开始讲起

1.1.1 Why Embedding

1.1.2 How Embedding

1.2 为什么需要乘以 𝑑𝑚𝑜𝑑𝑒𝑙

2. 总结

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜

1.2 为什么需要乘以