01 2014 档案

搜索引擎（lucene及周边）涉及的一些算法总结

摘要：一）分词1）正向/逆向最大匹配算法典型：IKAnalyzer采用的是正向迭代最细粒度切分算法IKAnalyzer源码简单分析：http://www.cnblogs.com/huangfox/p/3282003.html2）字典树（trieTree）trieTree实现http://www.cnblogs.com/huangfox/archive/2012/04/27/2474185.html中文分词遇到的问题：a）标准trieTree节点采用数组存储指针，如果是英文a-z用26长度的数组表示，但是中文不能用这种存储方式，节点数组长度等于中文字数。（内存撑不住！）b）如何节点内部查询？采用数组进阅读全文

posted @ 2014-01-17 18:14 huangfox 阅读(4127) 评论(0) 推荐(0) 编辑

huangfox

积分与排名

随笔分类 (195)

随笔档案 (194)

阅读排行榜

01 2014 档案