[CS224N] Note2

[CS224N] Note2

Word2vec

\(P(w_{t+j}|w_t;\theta)\)其中\(\theta\)是词向量参数,是一个客观存在的东西

对于Likelihood,已知概率分布求参数即词向量。

那么问题就变成\(\max_\theta Likelihood \Rightarrow \min_\theta Objective\)

对于Likelihood中的概率连乘,概率使用\(P(o|c)\)即给定中心词的条件下的周边词概率。 根据参数估计理论,我们需要使用参数表达出概率分布,因此给词向量一个定义:即越相似的词向量空间越接近,此时\(U\cdot V_c^\mathrm{T}\)得到一个\(n\times 1\)的矩阵,再通过softmax操作将其概率化。

Skip-Gram on Naïve Softmax

Example Sentence: I love NLP today.

\(J(\theta)=-\frac{1}{T}\sum^T_{t=1}\sum_{-m\le j\le m}\log P(w_{t+j}|w_t;\theta)\)

此时,T=4,设m=2

当t=2,\(w_t\)=love时,则子项为\(\log P(I|love)\) and \(\log P(NLP|love)\)

此时,\(\log P(I|love)=\frac{\exp(u_I^Tv_{love})}{\sum_{w\in V}\exp (u_w^T v_{love})}\)

Skip-Gram on co-occurence

构造共现矩阵,这样会产生很大很稀疏的矩阵。 因此,要做一些操作:奇异值分解

还有一种小trick使用阈值处理高频词(he the it...)

posted @ 2021-02-04 02:02  Harry666  阅读(52)  评论(0编辑  收藏  举报