《中文分词算法研究》

看完了才发现作者是经济管理学院的。

 

这是篇08年的论文。

 

目前国内外对于中文分词的主要研究成果分为以下几种:正向最大匹配法、反向最大匹配方法、分词与词性标注一体化方法、最佳匹配法、专家系统方法、最少分词词频选择方法、神经网络方法等。

 

ICTCLAS( Institute of Computing Technology, Chinese Lexical Analysis System)是由中国科学院计算技术研究所研究的基于多层隐马尔可夫模型HMM的汉语词法分析系统

 

查全率Precision =分词结果中切分正确的总词数 / 分词结果中的总词数


查准率Recall =分词结果中切分正确的总词数 / 标准文本中的总词数


 

F1 = 2 ×Precison ×Recall / Precison +Recall

分词速度=分词文件大小 / 分词所用时间

 

根据这货的实验结果,ICTCLAS的查全率查准率F1比正向最大匹配法的好,分词速度慢了点。

posted @ 2015-11-02 16:02  StevenLuke  阅读(143)  评论(0编辑  收藏  举报