摘要: 1.简介 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词 阅读全文
posted @ 2016-04-18 20:04 刘小神 阅读(3317) 评论(3) 推荐(0) 编辑
摘要: 备注:win7 64位系统,netbeans编程 基本代码框架参见我的另一篇文章:NLPIR分词功能 代码实现: 1 package cwordseg; 2 3 import java.io.UnsupportedEncodingException; 4 // import utils.System 阅读全文
posted @ 2016-04-18 19:56 刘小神 阅读(969) 评论(0) 推荐(0) 编辑
摘要: 备注:win7 64位系统,netbeans编程 NLPIR分词系统,前身是2000年发布的ICTCLAS,2009年更为现名。张华平博士打造。 实现步骤: 1、在Netbeans中,文件→新建项目→java→java应用程序;项目名称:CWordSeg; 2、将NLPIR文件下…\sample\J 阅读全文
posted @ 2016-04-18 19:52 刘小神 阅读(4817) 评论(0) 推荐(0) 编辑
摘要: 用户词典如下:舟曲县城@@ZQXC连夜@@LY中国科学院@@v工作@@t研究@@nb国科@t万科@y结果如下:Initial success!中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS。千万科学家未导入用户词典的分词结果是: 中国科学院/n 计算技术/ 阅读全文
posted @ 2016-04-18 19:21 刘小神 阅读(1116) 评论(0) 推荐(0) 编辑
摘要: ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 阅读全文
posted @ 2016-04-18 17:38 刘小神 阅读(1317) 评论(0) 推荐(0) 编辑