中文分词之思考

  中文分词作为中文信息处理的基础手段得到广泛应用。但是应用的不同,对中文分词的要求是不同的。概而述之,可以分为三类应用:

  • 中文信息的检索
  • 中文机器翻译
  • 中文机器理解

 

  中文信息的检索目前应用最广,如搜索引擎、数据库检索等。其对中文切词的要相对最低,最简单的二元切词法也可以取得不错的应用效果。其最大的诉求是召回率,因此切分颗粒比较细相对较好,切分大词并不一定会取得好的效果。

  中文机器翻译要求切分要符合语法,如果能够和相应的目标语言成对,是最理想的。

  中文机器理解要求切分符合语法并能体现语义,要求最高。

  目前,各种分词技术,基于词典的,统计概率,以及混合加规则的分词方法等,都达到了一定的应用水平。用于中文信息的检索问题不大,但对于机器翻译,机器语言理解,显然还远远不够。

  在实际应用中,有如下困惑:

  1. 词的定义,词是组成句子的最小单位,但是中文是由字组成的,最基本都可以切分成字,前面那个定义是不准确的。词的定义是什么?
  2. 新词的处理,什么词可以收入词库,什么词不收入词库?现代汉语大辞典的词少的可怜哦。
  3. 组成词的汉字有没有规律?肯定有,不然硬造的词是没有生命力的。那么符合什么规律呢?
  4. 中文语法成分的分解,有没有权威的规范,细分好呢,还是粗分好呢?目前的规范,大部分是借鉴外语的吧,真的能反映中文的规律吗?

待续。。。

 

posted on 2011-11-22 23:27  Richard.LI  阅读(241)  评论(0编辑  收藏  举报

导航