Graph Convolutional Networks for Text Classification——论文笔记

这篇文章是图卷积神经网络在文本分类上的较早应用,文章中,把整个语料库中的文档、所有重复的词算作图的节点。边的值分不同情况来取值:

当i, j两个节点都是词的时候,边的权重A_ij = PMI(i, j)
当i是文档,j是词时,边的权重是A_ij = TF-IDF_ij
当i = j时,边的权重A_ij = 1
其他情况下,A_ij = 0

其中PMI(point-wise mutual information),好像是翻译为逐点互信息,是一种常用的单词关联度量,用于计算两个单词节点之间的权重。文章中,作者也提出说:发现使用PMI所得到的实验结果比使用单词共现计数(word co-occurrence count)更好,以下是PMI的计算方法:

\(PMI(i, j) = log\frac{p(i, j)}{p(i)p(j)}\)
\(p(i, j) = \frac{\#W(i, j)}{\#W}\)
\(p(i) = \frac{\#W(i)}{\#W}\)

上述中：

#W(i)是语料库中包含单词i的滑动窗口的数量
#W(i, j)是同时包含单词i和j的滑动窗口的数量
#W是语料库中滑动窗口的总数

而对于PMI的意义，正的PMI表示语料库中单词的语义相关性很高，而负的PMI值表示语料库中的词的语义相关性很小或没有相关。因此，论文中旨在具有正PMI值的单词对之间添加边。

下图是文章中对GCN的示意图

posted @ 2021-03-01 17:16 Samll_unicorn 阅读(419) 评论(0) 编辑收藏举报

刷新页面返回顶部

Graph Convolutional Networks for Text Classification——论文笔记

公告