热推榜单的遏制策略
某位著名推友今晚于Twitter上写道:『RT我这条推多少次我今晚就ML多少次。』
可想而知这条消息的转推次数一定很惊人。但它却没有登上中文锐推榜(Twitter上的ID:@rtmeme ,对应的网站:玩聚RT),Why?
话说锐推榜为了阻止重复推上榜,所以要求每一个上榜消息都能够有足够多的标签被提取出来。所以,如果一条消息包含的有信息量的词过少,是无法登上榜单的。这样会丢掉一些优秀的消息,但这种损失是可以接受的。
【注:
何为“阻止重复推上榜”,可参见前作《语义分析相关应用的实作要点》中举的例子。
这里说的“标签”是自然语言处理中的“标签自动提取”,并非Twitter世界中专有的“HashTag”。
】
这种规则还有一个好处,也就是本文标题指的“遏制策略”:
你看新浪微博或9911的热门榜单,会发现大多数是明星们的呓语。对于这种基本由单字、叹词、助词、副词、连词和介词等组成的微博消息,锐推榜的这个规则就会有效阻止它们上榜。
之所以这样,是因为彼此的产品诉求不一样。玩聚锐推榜首要目标是寻找有趣、活泼的推,让每一个人都有机会登上榜单,而不是被名人牢牢占据。
而从人类的感觉上,至少要能有几个标签,比如名词、动词、形容词等,才能证明一个tweet可能包含有一定信息量,值得被传播。所以强制要求有N个标签被检测到的规则,恰好能逼近这种人类的认知。
关于热文榜单,推荐阅读:
关于微博热推榜单,推荐阅读:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
2009-01-23 玩聚SR支持聚合FriendFeed上的评论
2008-01-23 新媒体的运营之道【三】