Understanding Evolution of Research Themes: a Probabilistic Generative Model for Citations 理解

原创内容，转载注明出处

看了LDA模型后一直想看一下这个模型的应用，这篇论文托了好多天，一直到今天才算真正看完。论文很好理解，idea很新颖，是一篇很好的文章。

每个研究领域都有很多研究主题，知道研究主题是如何演化发展是十分重要的，这篇文章完成了这样几个任务：1、发现每个研究主题里程碑式的论文 2、每个主题最受关注的时间 3、每个主题的keywords 4、主题在研究领域中的重要程度 5、主题之间的依赖关系 6、主题之间的演化形式。

和之前看到的文章思路不同，这篇文章关注的不是paper中的word，而是paper中的citations，每个论文作者都会很谨慎地引用文章，因此利用citations产生的noise比利用word更小，而且citations数量远远小于word数量，减小了计算复杂度。这样一篇文章就从一个词袋变成了一个citation-bag。利用LDA模型，就可以得到文档-主题分布和主题-文档分布，对于每篇文章，根据文档-主题分布sample出topic，再根据topic 产生citations。

有了主题-文档分布后，对每个主题来说，如果一篇文章在分布中比例更大，那么说明这篇文章可以更好地characterize这个主题。也就是第一个任务，里程碑式论文。

　对于第二个任务，一个主题中的paper是有自己发表的时间的，对这个主题计算一个accumulate probability，直到time t，该主题中发表的paper的概率和，或者计算在某一年发表的主题的概率和，可以知道这个主题在哪一年收到更多的关注，哪一年开始逐渐衰落。

　第三个任务是利用主题中每个paper title的word，计算一下这些word在该主题中出现的次数，top-n可以当作主题的keyword。

对于第四个任务，可以计算出每个主题在所有paper中出现的次数，除以所有主题的总次数就是主题所占比例，比例大的主题在该研究领域更重要。

对于第五个任务，两个主题之间的依赖关系，可以通过所有主题a中出现的文章d，与文章d中出现主题c的概率乘积之和求得 a和c之间的依赖关系。

对于第六个任务，求得所有主题两两之间的依赖关系，对于old topic依赖new topic 和依赖关系很小的主题进行剪枝。可以发现一些topic融合成了新的topic。

实验用的数据集：ACL anthology network，pubmed central。以content-LDA为baseline，与本文中的citation-LDA进行比较。

这篇文章的思路很好，传统的LDA是doc-topic分布和topic-word分布，这篇文章没有将这个模型改的多么复杂，而是将文章中的word换成了citations，并且得出了许多有意义的结论，可以给今后的研究工作提供很大的启发。

参考文献：Understanding Evolution of Research Themes: a Probabilistic Generative Model for Citations

http://sifaka.cs.uiuc.edu/~xwang95/citaiton_lda

posted @ 2016-11-21 12:09 LC_Ruc 阅读(269) 评论(0) 收藏举报

刷新页面返回顶部

pangxiaobi

Understanding Evolution of Research Themes: a Probabilistic Generative Model for Citations 理解

公告