毕设开发手记(六)

      STING算法中的网格与查询相关度判定我改为使用中心极限定理(列维-林德伯格)了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确,但没找到更好的公式了。现在毕设基本完工,界面也做好了。只是聚类结果有时候很诡异,难道降维降太猛了?我来说说我的降维方法:

  • 根据句子成分标注,只保留名词和动词。(忘了那篇论文里提到了,说副词没啥用)
  • 通过停用词表删词。(很小的停用词表,只有十几个单字无意义名/动词)
  • 该篇文章中出现概率小于3的删词。
  • 全部文章出现概率低于1%或者高于90%的删词。

      不过降维效果的确猛,都是按位数降的……从W级降到百级。小恐怖~后面就是大规模测试还有小修改了,打算明天释出第一个release!

posted @   紫红的泪  阅读(529)  评论(5)    收藏  举报
编辑推荐:
· 微服务架构学习与思考:微服务拆分的原则
· 记一次 .NET某云HIS系统 CPU爆高分析
· 如果单表数据量大,只能考虑分库分表吗?
· 一文彻底搞懂 MCP:AI 大模型的标准化工具箱
· 电商平台中订单未支付过期如何实现自动关单?
阅读排行:
· Cursor:一个让程序员“失业”的AI代码搭子
· .NET 阻止Windows关机以及阻止失败的一些原因
· 博客园2025新款「AI繁忙」系列T恤上架
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(6)
· Avalonia跨平台实战(二),Avalonia相比WPF的便利合集(一)
点击右上角即可分享
微信分享提示