Embedding

Embedding

Onehot

　　对类别数据 one-hot:

类别如果用整数编码存在大小关系，计算损失和距离会有问题。

　　对特征 one-hot:

常见于对词的处理，将词映射到一个欧式空间，便于计算距离等。
one-hot 向量的维度等同于词表的维度
存在的问题
- one-hot 的向量无法体现词之间的关联和词义联系，而 embedding 可以通过计算向量的余弦相似度等，衡量两个词的相似度。
- 如果文本序列较短而词表很大，one-hot向量会很稀疏，对存储空间和计算资源的浪费。

embedding

　　将离散取值映射为连续取值，将词嵌入一个高维特征空间：

词 1=0.1*特征 1+0.2*特征 2... 词 2=0.2*特征 1+0.3*特征 3...
以上，“特征”取值通过端到端学习得到，也许并不能赋予特征的含义，可用于衡量词和词之间的相似度。

　　‍

　　embedding:

根据语料建立词表，将文本序列转换为整数序列，整数序列中的整数值为该词在词表中的索引。以此，整数序列代表这个文本序列。
之后两种常用处理方法：one-hot 和 embedding。
- one-hot: one-hot 向量维度取决于词表维度，无需对序列进行填充。
- embedding：将序列填充(常填充 0)为等长序列，再 embedding 转化为连续向量。

　　‍

　　世上本没有什么 embedding：

one-hot 经过一个全连接层（不带偏置和激活函数），全连接层的参数为词向量表，计算得到的结果为词向量。
one-hot 向量的特性，等价于一个查表的过程，查的是词向量表(全连接层的参数)。
全连接层经过反复训练再输出得到一个较好的 embedding 向量。

　　‍

　　‍

　　‍

　　‍

　　‍

　　‍

Reference

　　什么是词向量？如何得到词向量？Embedding 快速解读

　　词向量与 Embedding 究竟是怎么回事？

　　一文搞懂one-hot和embedding

　　‍

　　‍

posted @ 2023-02-07 15:33 巴啦啦胖魔仙阅读(101) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· [BIG 2015] 1. 基于操作码序列的词频和TF-IDF分类

· 【特征】操作码序列

· embedding

· 学习笔记411—【词向量基础】：one-hot

· 探秘Transformer系列之（7）--- embedding

阅读排行：
· 被坑几百块钱后，我竟然真的恢复了删除的微信聊天记录！
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单，K8s 太复杂？w7panel 让容器管理更轻松！

公告

昵称：巴啦啦胖魔仙
园龄： 4年1个月
粉丝： 0
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案