关于微博信息溯源

需求：在微博中找到一个发布某条消息的人。

问题分析:在微博中通过关键词搜索信息时，得到的信息只显示最近1000条，至于他是不是真的是最近我的我也不知道。这样的话，我们并不能得到最原始的那条微博。

现在的想法：1、微博中的高级搜索可以设定时间段和是否为原创帖。时间段以天为单位，最原始的微博一定是原创。通过这两个信息，可以缩短我们的搜索范围，并锁定原始微博的一个时间范围。

2、以一个句子作为关键词进行搜索（比如一些很热的门事件），然后对搜索得到的结果与原始搜索句计算相似度，进行打分。选择相似度较高的句子作为二次搜索的搜索句。进行迭代搜索。

3、这里，对于句子想速度的计算，他不像自动文摘那样篇幅很长信息很多，使用词频统计，向量空间表示的方法并不是很实用，因为微博句子很短，词频基本就是0-1状态。这里我们可以采用将统计方法与语义相似相结合的方法。这需要借助于HowNet，但是这样也有一些问题，比如a、这样的算法用于实际项目会不会太复杂；b、在微博中经常会出现新兴网络词汇，而这些词汇很可能没有收录到HowNet中，会造成此方法效果下降。

4、在微博中即使找到了最原始的那条状态也不一定是原始帖子，可能他只是自己从新编辑的，这时候，我们可以通过此作者的社交网络进行查找（约束条件，话题，话题的时间段）。

5、也可能微博中的帖子是从其他平台转发的，而且没任何标注。。。这个问题暂不考虑。。

目前思路就是这些，后期再补充~

补充：

1、在这个问题上，我们发现经过我们的挖掘查找更优的搜索条件是不太现实，因为博客的传播不是深度传播，而是广度传播撒，而且很多时候，在传播过程中信息会出现误传，会有一个演变过程。因此这一条不OK。

2、在新浪的微博中，他的搜索信息是进行的相关性合并的，这个一定要展开，不然我们找的结果可能不是最优的。

3、对于微博可以限定到一个小时内，对于一般网络传言的溯源这是可以满足需求的。但是对于会出现井喷的那种信息不OK，比如欧洲杯意大利输了撒。

4、对于这个项目的难点，现在变成了如何挖掘一个谣言的演变历程。我们怎么知道谣言的每一个状态。开始想，对每一个转折点进行词频统计，将与当前关键词同时出现频率较高的词汇进行记录，这样的误差率肯能会有点大，而且，对于这件事情，误判造成的后果很严重，因此慎重。在想其他方法。

posted on 2012-07-02 23:06 Vanior 阅读(785) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Vanior

关于微博信息溯源

公告

导航