词向量

转载：https://www.cnblogs.com/MartinLwx/p/10005520.html#4209708

为什么需要词向量？

众所周知，不管是机器学习还是深度学习本质上都是对数字的数字，Word Embedding(词嵌入)做的事情就是将单词映射到向量空间里，并用向量来表示

update 2019-5-2

> 从信息论的角度来看，就是引入了新的信息，所以能做更多的事情

> 还有TF-IDF词向量的词频+一定的权重值进行统计描述，缺点是单纯考虑词频，而忽略了词之间的位置信息和相互关系。

end

一个简单的对比

One-hot Vector

对应的词所在的位置设为1，其他为0；

例如：King, Queen, Man and Woman这句里面Queen对应的向量就是 $[0, 1, 0, 0]$

不足：难以发现词之间的关系，以及难以捕捉句法（结构）和语义（意思）之间的关系

Word2Vec

基本思想是把每个词表征为 $K$

举个最经典的例子：

king- man + woman = queen

实际上的处理是：从king提取了maleness的含义，加上了woman具有的femaleness的意思，最后答案就是queen.

借助表格来理解就是：

	animal	pet
dog	-0.4	0.02
lion	0.2	0.35

比如，animal那一列表示的就是左边的词与animal这个概念的相关性

两个重要模型

原理：拥有差不多上下文的两个单词的意思往往是相近的
Continuous Bag-of-Words(CBOW)
- 功能：通过上下文预测当前词出现的概率
- BOW的思想： $v (“ a b c ”) = 1 / 3 (v (“ a ”) + v (“ b ”) + v (“ c ”))$
- 原理分析
  
  假设文本如下：“the florid prose of the nineteenth century.”
  
  想象有个滑动窗口，中间的词是关键词，两边为相等长度（m，是超参数）的文本来帮助分析。文本的长度为7，就得到了7个one-hot向量，作为神经网络的输入向量，训练目标是：最大化在给定前后文本7情况下输出正确关键词的概率，比如给定("prose","of","nineteenth","century")的情况下，要最大化输出"the"的概率，用公式表示就是 $P (" t h e " | (" p r o s e ", " o f ", " n i n e t e e n t h ", " c e n t u r y "))$
- 特性
  - hidden layer只是将权重求和，传递到下一层，是线性的
Skip-gram

功能：根据当前词预测上下文
原理分析
- 和CBOW相反，则我们要求的概率就变为 $P (C o n t e x t (w) | w)$
- 以上面的句子为例，数据集的构成 $， (i n p u t ， o u t p u t)$
损失函数
- 如果假设当前词为 $w$
- 也就是： $L (θ) = \prod_{(- m \leq j \leq m, j \neq 0)} P (w_{t + j} | w_{t}; θ)$
- 在概率中也经常有： $J (θ) = - \frac{1}{T} l o g L (θ) = - \frac{1}{T} \sum_{t = 1}^{T} \sum l o g (P (w_{t + j} | w_{t}; θ))$
- 概率示意 $P (o | c) = \frac{e x p (u_{o}^{T} v_{c})}{\sum_{w = 1}^{v} e x p (u_{w}^{T} v_{c})}$
  - $v_{c}$
  - $u_{c}$
优点
- 在数据集比较大的时候结果更准确
不足
- 词的顺序不重要，并没有考虑到中文的语法
- 一词多义：比如tie的意思有很多个，要如何聚类，可以分出tie-1，tie-2等

posted @ 2019-04-26 15:45 AnimalRabbit 阅读(459) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】

公告

昵称： AnimalRabbit
园龄： 6年4个月
粉丝： 9
关注： 21

+加关注

2025年3月

日

一

二

三

四

五

六

Animal

the day

词向量

转载：https://www.cnblogs.com/MartinLwx/p/10005520.html#4209708

为什么需要词向量？

一个简单的对比

两个重要模型

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔档案 (51)

文章档案 (4)

相册 (1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论