中文锐推榜优化·二
一、Twitter 搜索索引的问题
由于锐推榜利用的是 Twitter Search API 入口,所以是否能足够全地找到所有中文 Retweets(又名:锐推/RT/转推) ,很多时候取决于 twitter 自己的索引是否能正确地识别 tweet 所采用的语言。
今年曾经有一度,长达一个月的时间,Twitter 的亚洲语言索引全部乱掉,日文、泰语、韩文、中文等语言写就的 Tweets 混乱地分布在不同国家语言的索引中,而日文和中文的索引几乎不再更新。所以说,Twitter 的搜索真的真的很需要 FriendFeed 这样的实时搜索技术专家支援。
Twitter Search 不能良好地识别 Tweets 语言的结果,可能就是 中文锐推榜 会漏掉消息。
二、包含 RT 单词的消息并不都是锐推
这个问题其实相当严重,最近至少发生过两次。上次是某人发消息送大礼,消息体内说请大家RT。结果 锐推榜 默认将第一个找到的转发消息正文作为上榜消息正文,于是很多人以为是 @rtmeme 要派送大礼。
这次是 @faytoday 发消息求助,正文的“rt会走桃花运.”带了RT标志,于是锐推榜检测到足够多的转发次数后,就原样转发了这条消息,害得 @faytoday 回复说 @rtmeme 抢了他的风头。
锐推榜只是搜索 tweets 文字中的 RT/Retweet/Retweeting/rTwt/转发:等单词,所以程序并不能明确判别一个 tweet 是不是锐推。
但必须改进这一点。
锐推榜针对“始发消息中含RT字样但并不是锐推”的情况,将自动在上榜消息前把找到的第一个消息发送者的用户帐号按照“RT @first_rtuser_id ”的格式加上,这样大家就不会误认为是 @rtmeme 在发推或评论了。
举例:
现在,统计程序检测到超过6个人在转发这条消息:“RT @Fenng: 有些公司的促销活动就是浪费。专门给爱占小便宜和钻空子的用户准备的。用户只有有需求才用你的网站,而不是凑热闹才用你的网站。”,那么它应该上榜;然后找到锐推榜所能索引到的第一个转发者ID是 @xuyangchina ,于是,这条上榜消息就变成了:
“
RT @xuyangchina: RT @Fenng: 有些公司的促销活动就是浪费。专门给爱占小便宜和钻空子的用户准备的。用户只有有需求才用你的网站,而不是凑热闹才用你的网站。
”
这样做的缺点就是,@rtmeme 本来可以在锐推传播路线图上处于第二传播梯队,现在不得不变成第三传播梯队。
就是这样了。
参考资源:
1、《中文锐推榜的优化》2009-06-16
2、《中文锐推榜的一个里程碑》2009-06-19
3、《中文微博客的热门锐推用户榜》2009-06-25
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?