中文自动分词方法解读

中文自动分词方法分为机械分词和理解性分词两种,目前实用的自动分词系统都是以采用机械分词为主,辅以少量的词法、语法和语义信息的分词系统。理解性分词目前还处于试验阶段。

机械分词法

机械分词从切分程度或切分策略上看可以分为部分切分和全切分两种。部分切分只取得输入序列的一种货几种可接受的切分形式,全切分则要求获得所有可接受的切分形式。下面就根据传统的习惯,说说部分切分的机械分词法。

1.机械分词法的分类

根据切取字串的方向,可分为正向匹配法和逆向匹配法。实验证明,逆向匹配法的切分正确率略高于正向匹配法,为便于发现歧义切分,也可降两者有机的结合起来形成双向匹配法。这里也要考虑到两者的词库问题。

根据每次匹配时优先考虑长词还是优先考虑短词,可分为最大匹配法和最小匹配法。由于大多数汉字均可构成单字词,所以按最小匹配法分词往往因分的太细而不合要求。反之亦然。

根据匹配不成功时重新切取的策略,机械匹配法又分为增字法和减字法。增字法一般与最小匹配法相结合,减字法一般与最大匹配法相结合。

2.基本的机械分词方法

根据以上分类,基本的机械分词方法有以下三种:

1)最大匹配法(Maximum Matching Method)

最大匹配法可分为正向最大匹配法(MM)和逆向最大匹配法(RMM)。正向匹配法的基本思想是:假设自动分词词库中的最长词条中汉字个数为N,则取被处理材料当前字符序序列中的前N个字作为匹配字段,查找分词词库,若词库中有这样一个N字词,则匹配成功,匹配字段作为一个词被切分出来;如果词库中找不到这样一个M字词,则匹配失败,重复以上过程。然后再按照上面的步骤进行下去,知道切分出语料中的所有词为止。这是一种减词的匹配法。

逆向匹配法(The Renerse Directional Maximum Matching Method),它的分词过程和MM相同,不同的是每次是从待处理语料的末尾开始处理的,每次处理不成功时去掉的是前面一个汉字。RMM的精确度要高一些,其错误切分率为1/245。

2)最小匹配法

最小匹配法也分为正向匹配和逆向匹配两种。这是一种增字的匹配方法,其基本原理与最大匹配法相似。

3)逐字遍历法

这种方法是将词库中的词由长到短递减的顺序,逐个在待处理的材料中搜索,知道切分出所有的词为止。

除以上三种基本的方法外,在分词中还用到一些其他技巧,这些技巧有时也可称作分词法。可归纳为:双向扫描法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、基于词频统计的分词法、基于期望的分词法、联想-回溯法。

理解性分词法

理解性分词法主要有专家系统方法和神经元网络方法。

中文分词技术是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都设计到分词问题。

转载请注明(旅游网站建设

posted @ 2013-03-18 16:59  没有理由  阅读(358)  评论(0编辑  收藏  举报