[CS224N] Note2

Word2vec

\(P(w_{t+j}|w_t;\theta)\)其中\(\theta\)是词向量参数，是一个客观存在的东西

对于Likelihood，已知概率分布求参数即词向量。

那么问题就变成\(\max_\theta Likelihood \Rightarrow \min_\theta Objective\)

对于Likelihood中的概率连乘，概率使用\(P(o|c)\)即给定中心词的条件下的周边词概率。根据参数估计理论，我们需要使用参数表达出概率分布，因此给词向量一个定义：即越相似的词向量空间越接近，此时\(U\cdot V_c^\mathrm{T}\)得到一个\(n\times 1\)的矩阵，再通过softmax操作将其概率化。

Skip-Gram on Naïve Softmax

Example Sentence: I love NLP today.

\(J(\theta)=-\frac{1}{T}\sum^T_{t=1}\sum_{-m\le j\le m}\log P(w_{t+j}|w_t;\theta)\)

此时，T=4，设m=2

当t=2，\(w_t\)=love时，则子项为\(\log P(I|love)\) and \(\log P(NLP|love)\)

此时，\(\log P(I|love)=\frac{\exp(u_I^Tv_{love})}{\sum_{w\in V}\exp (u_w^T v_{love})}\)

Skip-Gram on co-occurence

构造共现矩阵，这样会产生很大很稀疏的矩阵。因此，要做一些操作：奇异值分解

还有一种小trick使用阈值处理高频词(he the it...)

posted @ 2021-02-04 02:02 Harry666 阅读(52) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Harry666

[CS224N] Note2

[CS224N] Note2

Word2vec

Skip-Gram on Naïve Softmax

Skip-Gram on co-occurence

公告