《中文分词算法研究》
看完了才发现作者是经济管理学院的。
这是篇08年的论文。
目前国内外对于中文分词的主要研究成果分为以下几种:正向最大匹配法、反向最大匹配方法、分词与词性标注一体化方法、最佳匹配法、专家系统方法、最少分词词频选择方法、神经网络方法等。
ICTCLAS( Institute of Computing Technology, Chinese Lexical Analysis System)是由中国科学院计算技术研究所研究的基于多层隐马尔可夫模型HMM的汉语词法分析系统。
查全率Precision =分词结果中切分正确的总词数 / 分词结果中的总词数
查准率Recall =分词结果中切分正确的总词数 / 标准文本中的总词数
F1 = 2 ×Precison ×Recall / Precison +Recall
分词速度=分词文件大小 / 分词所用时间
根据这货的实验结果,ICTCLAS的查全率、查准率、F1比正向最大匹配法的好,分词速度慢了点。