读《The web of topics: discovering th topology of topic evolution in a corpus》笔记

导语:建议先看这篇论文,再来看我这篇笔记,你会有一个大体上的,思路上的把握,能够帮助你抓住文章的思路和主要路线。是怎么做的?做了什么?用最简要的话概括出来,围绕这个主线,再来展开问题,作进一步的研究和探索。

 

本文中,我们研究了怎样去发现话题在时间上的演化。我们的方法可以获得文本集中的话题演化的网络结构。我们发现话题,然后连接,形成一个话题演化图。我们的方法允许话题在时间上不均匀的分布,而且不对话题演化的图做任何的拓扑结构上的限制。我们用ACM论文集验证了我们算法。得到了很好的结果。

1. 探测新话题

一个文本集中,一个话题是包含很多篇文章的。随着时间的推移,话题开始改变。随着改变的积累,在某个时间点上,一篇或多篇文章就开启了一个新的话题。而这个新的话题,有可能die out或者是被随后的很多篇文档所分享。如果这个话题兴起,则我们就可以对这个变化做一个量化,来形成一个新的话题。但是,新话题的是在整个文本集的背景下,或者说是环境下产生出来的。通过连接新话题和之前的话题,我们能够看到话题的演化过程。

新话题要满足两个条件:第一,话题要有新内容。第二,这个话主题要涵盖到大量的文档。

如下定义:

clip_image002[6]

clip_image004[5]

定义背景模型为clip_image006[4]clip_image008[4]

我们使用clip_image010[4]来表示一个话题

1 这个话题的起始paper

2 词分布

3 与起始paper有共同内容的papers,相当于是一个follower

假设我们已经按年代来扫描了t-1个文档,并且发现了k个topic,然后接下来我们要对第t篇文档进行处理:

clip_image012[4]来表示dt的内容

clip_image014[4]

内容表示出来之后,我们再来判定 f 文档是不是follow dt文档的内容,用以下指标:

clip_image016[4]

clip_image018[4]

为了找到这些内容为clip_image020[4]的文档,我们将那些直接引用dt的文档作为candidate pool。从中选出g值最高的q篇文档,记为集合F,称之为top followers of dt。

为了检测dt是否含有新话题,和它的新话题是不是有很多文章跟进,用以下指标来判断:

clip_image022[4]

如果以上条件均满足,则产生一个新的topic clip_image024[4]

2. 发现话题之间的关系

在发现新话题之后,我们接下来就是要跟踪话题的演化关系了。

为了从文本内容上来更准确的表示clip_image026[8],以前是用start paper的内容来表示,现在用 F 和 start paper联合来表示

clip_image028[5]

下面来认定话题clip_image026[9]的 Member:

用 g 得分值来衡量一篇文档 d 与 话题clip_image026[10]的相关程度:

clip_image030[6]

得到

clip_image032[5]

在得到每个topic的 Member set 之后,可以开始计算两个 topic 的相关度了。

对每一对topic ,我们使用Cross citation count 作为它们的关系数据,其定义为:

clip_image034[5]

clip_image035[4]

Cross citation count

关系强度指标:

clip_image037[4]

这个通过n1 * n2次的伯努立试验,详细解释见原论文,可以得到如下:

clip_image039[4]

由于前面这一项是常数,于是我们关注下式:

clip_image041[4]

c 为cross citation count(交叉引用数)。

进一步为这个关系指标高一个阈值

clip_image043[5]

参考:

Yookyung Jo, John E. Hopcroft, Carl Lagaze. The web of topics: discovering th topology of topic evolution in a corpus. In WWW, 2011

posted on 2012-10-14 19:41  brainworm  阅读(309)  评论(0编辑  收藏  举报

导航