2009年8月13日
摘要: 几个免费的中文分词模块 几个月前做毕业论文的时候需要用到中文分词技术,现在总结一下我所找到的资料。 一、什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“... 阅读全文
posted @ 2009-08-13 23:21 Eric Yao 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次 为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、 MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的... 阅读全文
posted @ 2009-08-13 23:04 Eric Yao 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 本文为简单翻译,原文在: http://wiki.apache.org/lucene-java/ImproveSearchingSpeed * Be sure you really need to speed things up. Many of the ideas here are simple to try, but others will necessarily add some compl... 阅读全文
posted @ 2009-08-13 16:08 Eric Yao 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 本文只是简单的翻译,原文 在 http://wiki.apache.org/lucene-java/ImproveIndexingSpeed * Be sure you really need to speed things up. Many of the ideas here are simple to try, but others will necessarily add some comp... 阅读全文
posted @ 2009-08-13 16:06 Eric Yao 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 1. 基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式 2. 开发者及开发活跃度... 阅读全文
posted @ 2009-08-13 15:58 Eric Yao 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 1. 基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysis imdict :imdict智能词典所采用的智能中文分词程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器 ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式 2. 开发者及开发活跃度... 阅读全文
posted @ 2009-08-13 15:55 Eric Yao 阅读(551) 评论(0) 推荐(0) 编辑