乐哈哈旅游视频网:

大成功!

这几天吧词组建立环节的代码重写了!用的是一个非常好的哈希算法,可以对20多万变长词进行散列,碰撞率极低,几乎没有!因为其中用到对不同频率字节的词组散列到不同位上去的方法。很好的解决了词库建立这一过程,时间从以前的7小时没有提取完只提取到6万词组左右----->现在20多分钟就可以提取16多万词的高效结果!!
真是值得欣喜!

不过现在词频矩阵等的计算还得想写好办法!大规模矩阵运算~~改进中....

posted on 2007-05-28 08:21  riky  阅读(558)  评论(1编辑  收藏  举报

乐哈哈旅游视频网: