摘要: 中文分词技术说起来一定不陌生,大家初步接触时在网上查阅到最多的应该就是由中科院率先研究的ICTCLAS中文自动分词系统及其相关的源代码,不管是C#还是C++的或是VB的,想必都可以下载到。先不管是否可以看懂里面的源代码,至少可以知道这项技术即使在国内也已经相当的成熟了。 简单介绍一下分词的技术相关的算法以及对此几种算法的比较,最后用其中一种算法实现一个中文分词的小程序。 ①中文分词的算法 中文分词技术发展到今天概括起来可以归为三类:基于匹配的分词、基于统计的分词和基于理解的分词。 a.基于匹配的分词方法: 由于该分词方法自动化程度较高,因此又常被称为机械分词法。该方法遵循一定的算法将待分析的文 阅读全文
posted @ 2011-07-27 16:18 勇者归来 阅读(2204) 评论(2) 推荐(1) 编辑