读《The web of topics: discovering th topology of topic evolution in a corpus》笔记 - brainworm - 博客园

读《The web of topics: discovering th topology of topic evolution in a corpus》笔记

导语：建议先看这篇论文，再来看我这篇笔记，你会有一个大体上的，思路上的把握，能够帮助你抓住文章的思路和主要路线。是怎么做的？做了什么？用最简要的话概括出来，围绕这个主线，再来展开问题，作进一步的研究和探索。

本文中，我们研究了怎样去发现话题在时间上的演化。我们的方法可以获得文本集中的话题演化的网络结构。我们发现话题，然后连接，形成一个话题演化图。我们的方法允许话题在时间上不均匀的分布，而且不对话题演化的图做任何的拓扑结构上的限制。我们用ACM论文集验证了我们算法。得到了很好的结果。

1．探测新话题

一个文本集中，一个话题是包含很多篇文章的。随着时间的推移，话题开始改变。随着改变的积累，在某个时间点上，一篇或多篇文章就开启了一个新的话题。而这个新的话题，有可能die out或者是被随后的很多篇文档所分享。如果这个话题兴起，则我们就可以对这个变化做一个量化，来形成一个新的话题。但是，新话题的是在整个文本集的背景下，或者说是环境下产生出来的。通过连接新话题和之前的话题，我们能够看到话题的演化过程。

新话题要满足两个条件：第一，话题要有新内容。第二，这个话主题要涵盖到大量的文档。

如下定义：

定义背景模型为，

我们使用来表示一个话题

1 这个话题的起始paper

2 词分布

3 与起始paper有共同内容的papers，相当于是一个follower

假设我们已经按年代来扫描了t-1个文档，并且发现了k个topic，然后接下来我们要对第t篇文档进行处理：

用来表示dt的内容

内容表示出来之后，我们再来判定 f 文档是不是follow dt文档的内容，用以下指标：

，

为了找到这些内容为的文档，我们将那些直接引用dt的文档作为candidate pool。从中选出g值最高的q篇文档，记为集合F，称之为top followers of dt。

为了检测dt是否含有新话题，和它的新话题是不是有很多文章跟进，用以下指标来判断：

如果以上条件均满足，则产生一个新的topic

2．发现话题之间的关系

在发现新话题之后，我们接下来就是要跟踪话题的演化关系了。

为了从文本内容上来更准确的表示，以前是用start paper的内容来表示，现在用 F 和 start paper联合来表示

下面来认定话题的 Member：

用 g 得分值来衡量一篇文档 d 与话题的相关程度：

得到

在得到每个topic的 Member set 之后，可以开始计算两个 topic 的相关度了。

对每一对topic ，我们使用Cross citation count 作为它们的关系数据，其定义为：

Cross citation count

关系强度指标：

这个通过n1 * n2次的伯努立试验，详细解释见原论文，可以得到如下：

由于前面这一项是常数，于是我们关注下式：

c 为cross citation count（交叉引用数）。

进一步为这个关系指标高一个阈值

参考：

Yookyung Jo, John E. Hopcroft, Carl Lagaze. The web of topics: discovering th topology of topic evolution in a corpus. In WWW, 2011

posted on 2012-10-14 19:41 brainworm 阅读(309) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

公告

导航