Understanding Evolution of Research Themes: a Probabilistic Generative Model for Citations 理解

 

  原创内容,转载注明出处

  

 

  看了LDA模型后一直想看一下这个模型的应用,这篇论文托了好多天,一直到今天才算真正看完。论文很好理解,idea很新颖,是一篇很好的文章。

  每个研究领域都有很多研究主题,知道研究主题是如何演化发展是十分重要的,这篇文章完成了这样几个任务:1、发现每个研究主题里程碑式的论文  2、每个主题最受关注的时间  3、每个主题的keywords  4、主题在研究领域中的重要程度  5、主题之间的依赖关系  6、主题之间的演化形式。

  和之前看到的文章思路不同,这篇文章关注的不是paper中的word,而是paper中的citations,每个论文作者都会很谨慎地引用文章,因此利用citations产生的noise比利用word更小,而且citations数量远远小于word数量,减小了计算复杂度。这样一篇文章就从一个词袋变成了一个citation-bag。利用LDA模型,就可以得到文档-主题分布和主题-文档分布,对于每篇文章,根据文档-主题分布sample出topic,再根据topic 产生citations。

   有了主题-文档分布后,对每个主题来说,如果一篇文章在分布中比例更大,那么说明这篇文章可以更好地characterize这个主题。也就是第一个任务,里程碑式论文。

 对于第二个任务,一个主题中的paper是有自己发表的时间的,对这个主题计算一个accumulate probability,直到time t,该主题中发表的paper的概率和,或者计算在某一年发表的主题的概率和,可以知道这个主题在哪一年收到更多的关注,哪一年开始逐渐衰落。

 第三个任务是利用主题中每个paper title的word,计算一下这些word在该主题中出现的次数,top-n可以当作主题的keyword。

   对于第四个任务,可以计算出每个主题在所有paper中出现的次数,除以所有主题的总次数就是主题所占比例,比例大的主题在该研究领域更重要。

   对于第五个任务,两个主题之间的依赖关系,可以通过所有主题a中出现的文章d,与文章d中出现主题c的概率乘积之和求得 a和c之间的依赖关系。

   对于第六个任务,求得所有主题两两之间的依赖关系,对于old topic依赖new topic 和依赖关系很小的主题进行剪枝。可以发现一些topic融合成了新的topic。

   实验用的数据集:ACL anthology network,pubmed central。以content-LDA为baseline,与本文中的citation-LDA进行比较。

   这篇文章的思路很好,传统的LDA是doc-topic分布和topic-word分布,这篇文章没有将这个模型改的多么复杂,而是将文章中的word换成了citations,并且得出了许多有意义的结论,可以给今后的研究工作提供很大的启发。

 

   参考文献:Understanding Evolution of Research Themes: a Probabilistic Generative Model for Citations

                 http://sifaka.cs.uiuc.edu/~xwang95/citaiton_lda

   

posted @ 2016-11-21 12:09  LC_Ruc  阅读(251)  评论(0编辑  收藏  举报