中文分词之思考
中文分词作为中文信息处理的基础手段得到广泛应用。但是应用的不同,对中文分词的要求是不同的。概而述之,可以分为三类应用:
- 中文信息的检索
- 中文机器翻译
- 中文机器理解
中文信息的检索目前应用最广,如搜索引擎、数据库检索等。其对中文切词的要相对最低,最简单的二元切词法也可以取得不错的应用效果。其最大的诉求是召回率,因此切分颗粒比较细相对较好,切分大词并不一定会取得好的效果。
中文机器翻译要求切分要符合语法,如果能够和相应的目标语言成对,是最理想的。
中文机器理解要求切分符合语法并能体现语义,要求最高。
目前,各种分词技术,基于词典的,统计概率,以及混合加规则的分词方法等,都达到了一定的应用水平。用于中文信息的检索问题不大,但对于机器翻译,机器语言理解,显然还远远不够。
在实际应用中,有如下困惑:
- 词的定义,词是组成句子的最小单位,但是中文是由字组成的,最基本都可以切分成字,前面那个定义是不准确的。词的定义是什么?
- 新词的处理,什么词可以收入词库,什么词不收入词库?现代汉语大辞典的词少的可怜哦。
- 组成词的汉字有没有规律?肯定有,不然硬造的词是没有生命力的。那么符合什么规律呢?
- 中文语法成分的分解,有没有权威的规范,细分好呢,还是粗分好呢?目前的规范,大部分是借鉴外语的吧,真的能反映中文的规律吗?
待续。。。
posted on 2011-11-22 23:27 Richard.LI 阅读(241) 评论(0) 编辑 收藏 举报