摘要:一)分词1)正向/逆向最大匹配算法典型:IKAnalyzer采用的是正向迭代最细粒度切分算法IKAnalyzer源码简单分析:http://www.cnblogs.com/huangfox/p/3282003.html2)字典树(trieTree)trieTree实现http://www.cnblogs.com/huangfox/archive/2012/04/27/2474185.html中文分词遇到的问题:a)标准trieTree节点采用数组存储指针,如果是英文a-z用26长度的数组表示,但是中文不能用这种存储方式,节点数组长度等于中文字数。(内存撑不住!)b)如何节点内部查询?采用数组进
阅读全文
01 2014 档案