Word2Vec

Word2Vec有两种形式，一种是Skip-gram，另一种是CBOW。

Skip-gram：已知中心词 $w_c$ ，预测上下文词 $w_o$
CBOW：已知上下文词 $C=\{w_{c−m},…,w_{c−1},w_{c+1},…,w_{c+m}\}$ ，预测中心词 $w_c$

1. Softmax 损失函数

公式：

L_{w o r d 2 v e c} = - \frac{1}{| B |} \sum_{(w_{i}, C_{i}) \in B} \log \frac{\exp (w_{i} \cdot C_{i})}{\sum_{j \in V} \exp (w_{i} \cdot C_{j})}

$L_{word2vec} = -\frac{1}{|B|} \sum_{(w_i, C_i) \in B} \log \frac{\exp(w_i \cdot C_i)}{\sum_{j \in V} \exp(w_i \cdot C_j)}$

含义

目标：最大化中心词 $w_i$ 和上下文词 $C_i$ 的相似性，同时最小化中心词 $w_i$ 与其他非上下文词的相似性。
问题：每次计算梯度时，都需要遍历整个词汇表 $V$ ，计算所有词的概率。这在大规模语料中计算量非常大，效率较低。

2. 负采样（Negative Sampling，NEG）

为了解决 Softmax 的计算问题，Word2Vec 引入了负采样（NEG）方法，通过对部分负样本进行优化，避免计算整个词汇表 $V$ 。

公式：

L_{w o r d 2 v e c} = \frac{1}{| B |} \sum_{(w_{i}, C_{i}) \in B} [\log (1 + \exp (- w_{i} \cdot C_{i})) + \sum_{j \in S_{i}} \log (1 + \exp (w_{i} \cdot C_{j}))]

$L_{word2vec} = \frac{1}{|B|} \sum_{(w_i, C_i) \in B} \left[ \log(1 + \exp(-w_i \cdot C_i)) + \sum_{j \in S_i} \log(1 + \exp(w_i \cdot C_j)) \right]$

含义

正样本：使用 $w_i$ 和 $C_i$ （即真实的上下文词）。
负样本：从词汇表中随机采样一部分非上下文词（集合 $S_i$ ）作为负样本。
目的：让中心词 $w_i$ 和真实上下文 $C_i$ 的相似性最大化，同时最小化 $w_i$ 与负样本的相似性。
效率提升：负采样只需要计算一小部分负样本，大幅减少了计算复杂度。
$B$ ：代表一个Batch，其中一条样本( $w_i$ , $c_i$ )由一个中心词 $w_i$ 和其上下文 $C_i$ 组成

优点

显著降低了计算复杂度，特别是当词汇表很大时。
性能通常足够好，尤其是在实际应用中。

条件概率计算

item2vec

posted @ 2024-11-24 08:33 ForHHeart 阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Momentum Contrast (MoCo) for Unsupervised Visual Representation Learning

· Text Representation: OneHot, BOW, N-grams, TF-IDF, Word2Vec, Glove, FastText, ELMO, BERT, SBERT

· Word2Vec模型介绍

· word2vec

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称： ForHHeart
园龄： 2年9个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

ForHHeart

Word2Vec

Word2Vec

1. Softmax 损失函数

含义

2. 负采样（Negative Sampling，NEG）

含义

优点

条件概率计算

item2vec

公告

阅读排行榜