毕设开发手记（六）

STING算法中的网格与查询相关度判定我改为使用中心极限定理（列维-林德伯格）了。列维-林德伯格的公式只有在总体分布近似于正态分布时才比较准确，但没找到更好的公式了。现在毕设基本完工，界面也做好了。只是聚类结果有时候很诡异，难道降维降太猛了？我来说说我的降维方法：

根据句子成分标注，只保留名词和动词。（忘了那篇论文里提到了，说副词没啥用）
通过停用词表删词。（很小的停用词表，只有十几个单字无意义名/动词）
该篇文章中出现概率小于3的删词。
全部文章出现概率低于1%或者高于90%的删词。

不过降维效果的确猛，都是按位数降的……从W级降到百级。小恐怖～后面就是大规模测试还有小修改了，打算明天释出第一个release！

posted @ 2010-05-14 01:14 紫红的泪阅读(540) 评论(5) 收藏举报

刷新页面返回顶部