IK分词算法设计总结

IK分词算法设计思考

加载词典

IK分词算法初始化时加载了“敏感词”、“主词典”、“停词”、“量词”,如果这些词语的数量很多,怎么保证加载的时候内存不溢出

分词缓冲区

在分词缓冲区中进行分词操作,怎么保证分词缓冲区的内容不溢出

 

看源码心得体会

Ik分词算法也用到了luceue里面的jar包,多种词语的测试

虽然看源码很痛苦,但是能学到很多新的东西

勇敢的迈出了第一步,坚持坚持!

计算机是一门艺术,也是一门实验科学,测试和实验的目的是一样的,如果不理解算法,找一些特别简单的测试用例测试算法,

然后慢慢加大测试用例的复杂程度,这样慢慢加深理解算法

posted @ 2015-02-06 15:46  唾手可得的树  阅读(609)  评论(0编辑  收藏  举报