毕设开发手记(六)

      STING算法中的网格与查询相关度判定我改为使用中心极限定理(列维-林德伯格)了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确,但没找到更好的公式了。现在毕设基本完工,界面也做好了。只是聚类结果有时候很诡异,难道降维降太猛了?我来说说我的降维方法:

  • 根据句子成分标注,只保留名词和动词。(忘了那篇论文里提到了,说副词没啥用)
  • 通过停用词表删词。(很小的停用词表,只有十几个单字无意义名/动词)
  • 该篇文章中出现概率小于3的删词。
  • 全部文章出现概率低于1%或者高于90%的删词。

      不过降维效果的确猛,都是按位数降的……从W级降到百级。小恐怖~后面就是大规模测试还有小修改了,打算明天释出第一个release!

posted @ 2010-05-14 01:14  紫红的泪  阅读(526)  评论(5编辑  收藏  举报