旋风

Communication comes from our hears and heads! my msn:youpeizun@hotmail.com


导航

搜索引擎中中文词组分词的实现

Posted on 2007-04-15 23:39  xuanfeng  阅读(7849)  评论(24编辑  收藏  举报

      实现方式:通过扩展Lucene.net中标准的分词器来实现。
       Lucene.net标准分词器原代码StandardTokenizer

       Lucene.net标准分词器在英文分词中有非常好的体验。比喻说:在邮件,IP地址,符号处理方面,它都处理得非常好。只是很遗憾,它不支持中文词组分词。于是,我就通过修改里面的核心代码让它扩展,支持中文的分词。

目标:使它能够增加对中文词组的切词。

效果:

原句:“我是中国人!I am chiness!Email:youpeizun126@126.com;IP:172.17.34.168

切词效果:

//中国人/中国////Email/youpeizun126@126.com/IP/172.17.34.168

所要完成的任务:

1. 装载词库

2. 截取一段连续的中文字段

3. 进行连续的分词.



下面是设计扩展Lucene.net标准分词器的支持中文词组分词的流程图.



       接下来,我把扩展Lucene.net标准分词器所写的核心代码,主要包含三个函数,它们分别实现装载词典,载取连续中文字段,中文词组分词算法功能.

中文词组分词核心代码


           结束,谢谢你的阅读.