关于微博信息溯源

需求:在微博中找到一个发布某条消息的人。

问题分析:在微博中通过关键词搜索信息时,得到的信息只显示最近1000条,至于他是不是真的是最近我的我也不知道。这样的话,我们并不能得到最原始的那条微博。

现在的想法:1、微博中的高级搜索可以设定时间段和是否为原创帖。时间段以天为单位,最原始的微博一定是原创。通过这两个信息,可以缩短我们的搜索范围,并锁定原始微博的一个时间范围。

2、以一个句子作为关键词进行搜索(比如一些很热的门事件),然后对搜索得到的结果与原始搜索句计算相似度,进行打分。选择相似度较高的句子作为二次搜索的搜索句。进行迭代搜索。

3、这里,对于句子想速度的计算,他不像自动文摘那样篇幅很长信息很多,使用词频统计,向量空间表示的方法并不是很实用,因为微博句子很短,词频基本就是0-1状态。这里我们可以采用将统计方法与语义相似相结合的方法。这需要借助于HowNet,但是这样也有一些问题,比如a、这样的算法用于实际项目会不会太复杂;b、在微博中经常会出现新兴网络词汇,而这些词汇很可能没有收录到HowNet中,会造成此方法效果下降。

4、在微博中即使找到了最原始的那条状态也不一定是原始帖子,可能他只是自己从新编辑的,这时候,我们可以通过此作者的社交网络进行查找(约束条件,话题,话题的时间段)。

5、也可能微博中的帖子是从其他平台转发的,而且没任何标注。。。这个问题暂不考虑。。

 

目前思路就是这些,后期再补充~

 

补充:

1、在这个问题上,我们发现经过我们的挖掘查找更优的搜索条件是不太现实,因为博客的传播不是深度传播,而是广度传播撒,而且很多时候,在传播过程中信息会出现误传,会有一个演变过程。因此这一条不OK。

2、在新浪的微博中,他的搜索信息是进行的相关性合并的,这个一定要展开,不然我们找的结果可能不是最优的。

3、对于微博可以限定到一个小时内,对于一般网络传言的溯源这是可以满足需求的。但是对于会出现井喷的那种信息不OK,比如欧洲杯意大利输了撒。

4、对于这个项目的难点,现在变成了如何挖掘一个谣言的演变历程。我们怎么知道谣言的每一个状态。开始想,对每一个转折点进行词频统计,将与当前关键词同时出现频率较高的词汇进行记录,这样的误差率肯能会有点大,而且,对于这件事情,误判造成的后果很严重,因此慎重。在想其他方法。

 

 

 

posted on 2012-07-02 23:06  Vanior  阅读(785)  评论(0编辑  收藏  举报

导航