Embedding
Embedding
Onehot
对类别数据 one-hot:
- 类别如果用整数编码存在大小关系,计算损失和距离会有问题。
对特征 one-hot:
-
常见于对词的处理,将词映射到一个欧式空间,便于计算距离等。
-
one-hot 向量的维度等同于词表的维度
-
存在的问题
- one-hot 的向量无法体现词之间的关联和词义联系,而 embedding 可以通过计算向量的余弦相似度等,衡量两个词的相似度。
- 如果文本序列较短而词表很大,one-hot向量会很稀疏,对存储空间和计算资源的浪费。
embedding
将离散取值映射为连续取值,将词嵌入一个高维特征空间:
- 词 1=0.1*特征 1+0.2*特征 2... 词 2=0.2*特征 1+0.3*特征 3...
- 以上,“特征”取值通过端到端学习得到,也许并不能赋予特征的含义,可用于衡量词和词之间的相似度。
embedding:
-
根据语料建立词表,将文本序列转换为整数序列,整数序列中的整数值为该词在词表中的索引。以此,整数序列代表这个文本序列。
-
之后两种常用处理方法:one-hot 和 embedding。
- one-hot: one-hot 向量维度取决于词表维度,无需对序列进行填充。
- embedding:将序列填充(常填充 0)为等长序列,再 embedding 转化为连续向量。
世上本没有什么 embedding:
- one-hot 经过一个全连接层(不带偏置和激活函数),全连接层的参数为词向量表,计算得到的结果为词向量。
- one-hot 向量的特性,等价于一个查表的过程,查的是词向量表(全连接层的参数)。
- 全连接层经过反复训练再输出得到一个较好的 embedding 向量。
Reference
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!