摘要: 转载:http://hi.baidu.com/lszhuhaichao分词原理建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器,把短语或者句子切分成相同的结果,才能保证检索过程顺利进行。1、英文分词的原理基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转为小写、结果输出。2、中文分词原理中文分词比较复杂,并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。主要的方法有三种:基于词典匹 阅读全文
posted @ 2013-11-03 22:15 曹守鑫 阅读(1030) 评论(0) 推荐(0) 编辑