eaglet

本博专注于基于微软技术的搜索相关技术
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2009年8月13日

摘要: 两年前我开发了一个KTDictSeg 中文分词组件,这个组件推出2年来受到很多朋友的喜爱。不过由于我当初开发KTDictSeg时比较仓促,底子没有打好,而且当时对分词的理解也比较肤浅,所以KTDictSeg组件存在很多问题,我一直想重新开放一个更好的开源分词组件,但一直没有抽出时间。上周我终于下定决心开始做这个事情,经过两周的开发(业余时间),今天终于完成了盘古分词的V1.0版本。盘古分词和KTDictSeg完全不同,几乎所有的算法我全部都推倒重写了,其分词速度大概比KTDictSeg快5倍左右(多线程下快10倍以上),内存占用只有KTDictSeg的一半,分词的准确度方面也比 KTDictSeg 有显著提高,功能也增加了很多。下面我就简单介绍一下盘古分词组件的基本功能,希望能对有这方面需求的朋友有所帮助。 阅读全文

posted @ 2009-08-13 16:50 eaglet 阅读(46426) 评论(126) 推荐(30) 编辑