SR方式挖掘豆瓣热点
无意中看到M Jia在《豆瓣好友热点 v0.2.3》中提及:
“以前很喜欢看Techmeme/Digg这样的聚合/社区工具,现在超级喜欢Hacker News和Reddit Programming,简洁又超级有活力(虽然我不太能参乎进去,呵呵),如果能够使用玩聚SR的方式来作豆瓣上的“物”并加上豆瓣原来就有的社区,可以非常简洁并有活力,我会非常喜欢,不过我代表不了广大用户。”
顺着他的这个思路,那么如何一步一步做呢:
- 步骤
- 找到豆瓣上的核心用户,给予一定权重
- 譬如 豆瓣牛鬼蛇神一览表
- 根据douban-python-API获取这些核心用户的所有朋友
- 判断这些用户的最新活动时间,如果最近一星期内有更新,则加入到监测
- 为之分门别类建立Group,以便按照兴趣打包订阅
- 获取所有监测用户的广播,这是公开的
- 汇总所有监测用户的推荐,一个推荐或提及就代表投了一票
- site
- recommendation
- 看过
- 想看
- 设定一个投票上榜的最低阈值
- 参考玩聚SR 的SRRank公式(SRRank=log10Z+ts/45000),设定自己排序规则
- 为每一个Group都生成对应的热点榜单
- 如果热点是电影或音乐,到VeryCD搜索获取对应的下载项
- 找到豆瓣上的核心用户,给予一定权重
- mashup
- 豆瓣API
- VeryCD Search
- ginx的group思路
- 缺点
- 豆瓣的数据很零散,长尾太长,难以发现与时俱进的、有效的What's Hot
- 顶多也就是被人回应比较多的Item
- 甚至未见得最终挖掘效果比得过豆瓣电影首页的效果
- 多数人都是想读想看看过之类的信息,用到“推荐”功能的不多
- 豆瓣API有访问频次限制,小心别被block
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构