一、共现矩阵

矩阵的行和列都是词典中的所有词,Xij的定义为,在所有词i的上下文中,Xj出现的次数。因此Xi定义为,所有的Xij之和,也就是词i出现的上下文中的词数总和,基本和词i的出现次数成正比。

 

二、概率

Pij定义为Xij/Xi,即词j在词i的上下文中出现的次数占词i总上下文次数的比值。

 

三、概率比值

比值ratio定义为,借助于第3个词k,探究2个词的关系,出现了一些规律

 

我们考虑ice冰和steam气的关系,借助于第3个词k:

发现当k为solid时,k和ice近似,这时ratio>>1;

而当k=gas,与steam接近时,ratio<<1;

当k取water或fashion等与2个词都不相关时,ratio≈1

 

因此,这个ratio只有意义的