中英文文本分类的区别

文本自动分类是分析特定文本的特征,并与已知类别中文本所具有的共同特征进行比较,然后将待定文本划归为特征最接近的一类并赋予相应的分类号。文本分类一般包括文本的表示、分类器的选择和训练、分类结果的评价与反馈等过程,其中文本的表示有可细分为文本分词、特征抽取等步骤。文本分类系统的总体框架如图1所示,其主要功能模块有一下四个:

由文本分类过程可以看出,中英文分类,在训练阶段之前都要经过一个表示和预处理的过程,即:表示成计算机能够“认识”事物,并且需要去除无用的信息,减少后续步骤的复杂度和计算负担,这个过程中中英文存在着显著的不同点。

首先是文本表示,要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词汇(即:分词),例如中文原文是“江苏省是中国经济发达的省份之一”的文本就要被切分成“江苏省/是,中国,经济,发达,的,省份,之一”这样的形式。英文只需要通过空格和标点便很容易将一个一个独立的词从原文中区分出来。分词的效果对文本分类的效果影响很大,在后面的流程中,分词是后续流程的基础,目前比较常用的方法有词典法,隐马尔科夫模型和新兴的CRF方法。

分词之后的“去停止词”阶段,中英文的也存在的差别,目的都是要把语言中一些表意能力很差的辅助性文字从原始文本中去除,对中文文本来说,类似“他”,“是”,“之一”,“的”这样的词汇都会被去除,英文也需要消除“an”,“in”,“the”等。中英文“去停词”,一般都是通过查一个对应表进行的。

中文经过“去停词”处理后基本就可以进入下一个阶段了,英文还不行,需要进一步词根还原。人们都知道,英文同一个词有所谓词形的变化(相对的,词义本身却并没有变),例如名词有单复数的变化,动词有时态的变化,形容词有比较级的变化等等,还包括这些变化形式的某种组合。例如:writed和writing都应该还原成write,因为其作为词,表示的意思相同,所以需要“词根还原”。

经过预处理步骤之后,训练文本和待分类文本都被表示成了节省资源,计算机“认识”的形式,后面的其他阶段中英文的分类处理就基本相同。

 

posted @ 2018-02-26 13:45  kyrie_chen  阅读(2985)  评论(0编辑  收藏  举报