关于微博溯源的后续问题

1、在进行关键词搜索的时候,如何分词,我们不可能用语料库进行匹配,已没有语料可以学习。

2、关于转折点的寻找。目前我们使用高级搜索,从当前时间往前推,根据搜索到微博的条数变化,确定时间发生具体时间(天),在二分寻找发展时间的具体小时,对此小时的搜索结果按发布时间进行排序。

3、对于相似结果。新浪会将相似结果进行合并,导致搜索结果信息的丢失,我们还木有具体搞清楚他的合并规则,是否需要将所有信息展开。

4、对于微博事件的关键词的演变该如何处理,现在,如从“青山爆炸”到“青山氯气泄漏”到“武钢爆炸”等等,搜索关键词只能得到一组关键词的结果,如何得到后续的关键词,通过词频统计的话,必然会造成噪声点过多,即使不多,一个噪声点就是致命的。因为这可能导致我们的溯源不知道溯到哪里去了。

5、关于新浪博客的搜索BUG不知如何处理。

5、搜狐、腾讯的微博明显比新浪的搓。都没有高级搜索,只能搜到一天,而且他们的搜索算法也貌似有点小问题,具体真多他们如何做,后面再说。

posted on 2012-07-15 20:20  Vanior  阅读(219)  评论(0编辑  收藏  举报

导航