摘要:
1.简介 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词 阅读全文
摘要:
备注:win7 64位系统,netbeans编程 基本代码框架参见我的另一篇文章:NLPIR分词功能 代码实现: 1 package cwordseg; 2 3 import java.io.UnsupportedEncodingException; 4 // import utils.System 阅读全文
摘要:
备注:win7 64位系统,netbeans编程 NLPIR分词系统,前身是2000年发布的ICTCLAS,2009年更为现名。张华平博士打造。 实现步骤: 1、在Netbeans中,文件→新建项目→java→java应用程序;项目名称:CWordSeg; 2、将NLPIR文件下…\sample\J 阅读全文
摘要:
用户词典如下:舟曲县城@@ZQXC连夜@@LY中国科学院@@v工作@@t研究@@nb国科@t万科@y结果如下:Initial success!中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS。千万科学家未导入用户词典的分词结果是: 中国科学院/n 计算技术/ 阅读全文
摘要:
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 阅读全文