共现矩阵

原文链接:https://blog.csdn.net/qq_35290785/article/details/98231826

主要用于发现主题,解决词向量相近关系的表示; 将共现矩阵行(列)作为词向量

例如:语料库如下: 
• I like deep learning. 
• I like NLP. 
• I enjoy flying.

则共现矩阵表示如下:(使用对称的窗函数(左右window length都为1) )

 

 

 

 

例如:“I like”出现在第1,2句话中,一共出现2次,所以=2。 
对称的窗口指的是,“like I”也是2次

将共现矩阵行(列)作为词向量表示后,可以知道like,enjoy都是在I附近且统计数目大约相等,他们意思相近

但是共现矩阵也存在很多问题

面临稀疏性问题、向量维数随着词典大小线性增长

解决:SVD、PCA降维,但是计算量大

 



 

posted on 2020-06-28 22:31  cltt  阅读(1558)  评论(0编辑  收藏  举报

导航