huangfox

冰冻三尺,非一日之寒!

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  194 随笔 :: 4 文章 :: 106 评论 :: 105万 阅读

01 2014 档案

摘要:一)分词1)正向/逆向最大匹配算法典型:IKAnalyzer采用的是正向迭代最细粒度切分算法IKAnalyzer源码简单分析:http://www.cnblogs.com/huangfox/p/3282003.html2)字典树(trieTree)trieTree实现http://www.cnblogs.com/huangfox/archive/2012/04/27/2474185.html中文分词遇到的问题:a)标准trieTree节点采用数组存储指针,如果是英文a-z用26长度的数组表示,但是中文不能用这种存储方式,节点数组长度等于中文字数。(内存撑不住!)b)如何节点内部查询?采用数组进 阅读全文
posted @ 2014-01-17 18:14 huangfox 阅读(4127) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示