中文分词之思考

　　中文分词作为中文信息处理的基础手段得到广泛应用。但是应用的不同，对中文分词的要求是不同的。概而述之，可以分为三类应用：

　　中文信息的检索目前应用最广，如搜索引擎、数据库检索等。其对中文切词的要相对最低，最简单的二元切词法也可以取得不错的应用效果。其最大的诉求是召回率，因此切分颗粒比较细相对较好，切分大词并不一定会取得好的效果。

　　中文机器翻译要求切分要符合语法，如果能够和相应的目标语言成对，是最理想的。

　　中文机器理解要求切分符合语法并能体现语义，要求最高。

　　目前，各种分词技术，基于词典的，统计概率，以及混合加规则的分词方法等，都达到了一定的应用水平。用于中文信息的检索问题不大，但对于机器翻译，机器语言理解，显然还远远不够。

　　在实际应用中，有如下困惑：

待续。。。

posted on 2011-11-22 23:27 Richard.LI 阅读(241) 评论(0) 编辑收藏举报

刷新页面返回顶部

Richard.LI