热推榜单的遏制策略

某位著名推友今晚于Twitter上写道：『RT我这条推多少次我今晚就ML多少次。』

可想而知这条消息的转推次数一定很惊人。但它却没有登上中文锐推榜（Twitter上的ID：@rtmeme ，对应的网站：玩聚RT），Why?

话说锐推榜为了阻止重复推上榜，所以要求每一个上榜消息都能够有足够多的标签被提取出来。所以，如果一条消息包含的有信息量的词过少，是无法登上榜单的。这样会丢掉一些优秀的消息，但这种损失是可以接受的。

【注：

何为“阻止重复推上榜”，可参见前作《语义分析相关应用的实作要点》中举的例子。

这里说的“标签”是自然语言处理中的“标签自动提取”，并非Twitter世界中专有的“HashTag”。

】

这种规则还有一个好处，也就是本文标题指的“遏制策略”：

你看新浪微博或9911的热门榜单，会发现大多数是明星们的呓语。对于这种基本由单字、叹词、助词、副词、连词和介词等组成的微博消息，锐推榜的这个规则就会有效阻止它们上榜。

之所以这样，是因为彼此的产品诉求不一样。玩聚锐推榜首要目标是寻找有趣、活泼的推，让每一个人都有机会登上榜单，而不是被名人牢牢占据。

而从人类的感觉上，至少要能有几个标签，比如名词、动词、形容词等，才能证明一个tweet可能包含有一定信息量，值得被传播。所以强制要求有N个标签被检测到的规则，恰好能逼近这种人类的认知。

关于热文榜单，推荐阅读：

关于微博热推榜单，推荐阅读：

posted @ 2010-01-23 23:14 老兵笔记阅读(4640) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

历史上的今天：
2009-01-23 玩聚SR支持聚合FriendFeed上的评论
2008-01-23 新媒体的运营之道【三】