毕设开发手记(六)
STING算法中的网格与查询相关度判定我改为使用中心极限定理(列维-林德伯格)了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确,但没找到更好的公式了。现在毕设基本完工,界面也做好了。只是聚类结果有时候很诡异,难道降维降太猛了?我来说说我的降维方法:
- 根据句子成分标注,只保留名词和动词。(忘了那篇论文里提到了,说副词没啥用)
- 通过停用词表删词。(很小的停用词表,只有十几个单字无意义名/动词)
- 该篇文章中出现概率小于3的删词。
- 全部文章出现概率低于1%或者高于90%的删词。
不过降维效果的确猛,都是按位数降的……从W级降到百级。小恐怖~后面就是大规模测试还有小修改了,打算明天释出第一个release!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,携手博客园推出1Panel与Halo联合会员
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微服务架构学习与思考:微服务拆分的原则
· 记一次 .NET某云HIS系统 CPU爆高分析
· 如果单表数据量大,只能考虑分库分表吗?
· 一文彻底搞懂 MCP:AI 大模型的标准化工具箱
· 电商平台中订单未支付过期如何实现自动关单?
· Cursor:一个让程序员“失业”的AI代码搭子
· .NET 阻止Windows关机以及阻止失败的一些原因
· 博客园2025新款「AI繁忙」系列T恤上架
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(6)
· Avalonia跨平台实战(二),Avalonia相比WPF的便利合集(一)