转载:一个基于概念的中文文本分类模型
苏伟峰 李绍滋
厦门大学计算机科学系 厦门 361005
摘 要 本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐, 进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。
关键词 文本分类 概念 《知网》 全信息
一、引 言
在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。对资料进行管理一个很常见的方法就是对它们系统地进行分类。
显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。
当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类成了许多人的研究方向。
一般而言,文本分类方法可分为两个类型:
基于外延方法的分类方法:这种类型的分类方法不关心文本的语义,根据文本的外在特征进行分类。最常见的方法是基于向量空间模型(Vector Space Module)的方法,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的距离,来判定文本之间的相似程度。采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。这种方法有了很多的应用,但是其不足之处也是显而易见的:
1.正确率一般只能达到80%,且很难进一步向上发展
2.对于不同体材的文本,则其归类正确率更是大打折扣。
基于语义的分类方法:这种类型的分类方法采用全部或部份理解文本的语义而进行归类。主要可以分为以下三类:
1.基于词的归类技术
文本的语义是基于概念之上的,而词是概念的基本构成单位,从文本抽取出能反映出该文本的关键词,通过对关键词归类而进行归类,显然这种方法产生的归类其实并不是真正通过语义来进行归类,属于较早采用的技术。
2.基于知识的归类技术
基于知识库的归类技术有一个明确的知识库,知识的表示方法主要有规则库、语义模型或格框架等。基于知识的分类技术的显著特点是需要手工建造知识库,且建造的知识库领域性极强,移植非常困难。最近的研究工作表明,在一定的领域内,基于知识库的系统能够进行快速准确的分类。
3.基于概念的归类技术
基于概念的归类技术是一种介于词的分类技术和基于知识的归类技术之间的技术,它只抽取那些对文本分类有用的概念,它抽取短语周围的文本和潜在的语义概念进行文本类别的确定。基于概念的归类技术并不需要理解全文的语义,这在当前对自然语言的理解水平尚处于初级阶段的现状来说无疑是一个较好的方法。
本文提出了一个中文文本自动分类模型,它是基于概念的归类技术,建立在《知网》基础之上的,从文章中抽取出关键词,利用词产生的概念对全文进行分析,然后根据概念的类别综合进行分类。
二、知网简介
《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念之间以及概念所具有的属性之间的基本内容的常识知识库。
《知网》认为世界上的一切事件都在特定的时间和空间内不停地运动和变化,它们通常是从一种状态变化到另一种状态,并通常通过其属性来体现。
《知网》概括了八百多个事件义原,通过义原的组合来标注各种各样的单纯的或复杂的概念,以及各个概念与概念之间、概念的属性与属性之间的关系。相对来说,新词虽然层出不穷,但义原的增加却极少,显然,从理论上说,处理好了这八百多个义原就可以实现对文本的分类。
《知网》使用义原的组合来标注各种各样的单纯或复杂的概念,其标注时按其特征的重要性从大到小顺序来定义概念,但在文本分类的过程中,我们发现许多概念的主要特征大部分无法定义其类别,而且其特性倒不是我们所关心的。所以我们定义一个概念的第一个能够归类的特性为首分特性,每一个能够归类的特性称为可分特性。显然,首分特性是最重要的可分特性。对在我们的文本分类过程当中主要是利用概念的首分特性和可分特性来进行分类。
《知网》作为一个知识系统,实副其名是一个网而不是树。它所要反映的是概念的共性和个性,知网还着力要反映概念之间和概念的属性之间的各种关系。
三、系统的设计与实现
在本模型中,概念的生成是基于对词的理解之上的,而知网作为一个常识数据库,对概念的理解已经形成
分词与标注:对电子文档进行词条的切分,并对所切分的词进行词性标性。
关键词抽取:从分词后的词条中抽取出最能反映文档的内容的词语。
概念排岐:对抽取出的关键词所表示的概念进行排岐。
文本归类:根据概念排岐后的所有词的概念进行综合从而得到该文档所属的类别。
3.1 关键词集的抽取方法
假设文本已经进行了词组分解的操作,把文本变成一个词的序列,关键词的抽取操作步骤如下:
1) 首先将文本中虚词如代词等去掉,剩下名词、动词、形容词和副词
2) 把动词分为三类:
关系动词:
状态动词:
行动动词:
去掉关系动词和状态动词。
3) 记录下每个词在剩下的词当中所处的位置Pi。
4)统计词频Fi
对于文本中出现的词,若第一次出现时词频F设置为1,以后每出现一次则加1,若该词在标题中出现,则多加上H,
在KEYWORD(若有)中出现,则多加上I,
在摘要中出现,则多加上K,
在篇首中出现,则多加上L,
在篇尾中出现,则多加上M,
在段首中出现,则多加上N,
在段尾中出现,则多加上O,
一般而言, H>I>K>L,M>N,O,这是由它们所在位置对文章的重要性决定的。
5)计算词权Hi
各类词的权重分别设置如下:
名词: W1
动词: W2
形容词: W3
副词: W4
一般而言,w1>w2>w3,w4,这是因为相对而言名词所携带的信息量较大,动词次之,而形容词和副词再次之。
对于每一个词:Hi=Fi*Wj
根据文章长度设一阀值λ,文章越长,则λ值越大,滤去词权小于λ的词。
3.2 概念的排岐
根据全信息理论:理解信息不仅要了解信息了形式,更重要的是要理解信息的含义(语义信息)和信息的效用(语用信息)。“全信息”是认识论层次的信息概念,即认识主体所感知的事物运动状态以及状态变化的方式,包括状态/方式的形式、含义和效用,其中状态/方式的形式称为语法信息,状态/方式的含义称为语义信息,状态/方式的效用称为语用信息。对自动文本分类而言,全信息包含了词的语法、语义和语用信息。语法信息涉及词的语法特征。语义信息描述词的语义内涵,它有多种特征,如语法语义特征、内在的语义特征等,我们可以通过《知网》来获得词的语义信息,对于一个词可能有多个概念的情景,则我们可以用语用信息来确定该词在本文当中所表达的概念,这是因为语用信息反映的是作者对词语的选择性使用,每个词特别是实词都是为适应上下文的需要而被选择的,同时每一个词都改变了上下文的结构。显然对于有多个概念的关键词,通过对上下文的分析我们可以大致确定该词在本文当中的概念,其方法如下:
对每一个具有两个以上的概念的词W,设其在的实词序列中的位置为p,分别给该词的每一个概念赋一个权值k,建立一个以词W为中心、大小为2n+1的窗口:Wp-nWp-n+1…Wp-1WWp+1…Wp+n ,对于W中的每一个概念的每一个可分特性,如若在Wp-nWp-n+1…Wp-1Wp+1…Wp+n中每找出一个与之相同的特性,则将该概念的权值加1,最后将该词所有的概念进行归一化处理:将该词的所有概念的权值相加得到和数S,然后每个概念的权值除以S得到Kj放入其概念权值中。
3.3 根据义原确定类别
每个概念按其首分特性定义其所属类别,这就是说,给每个概念根据其最重要的可分特性进行分类,即:
根据上面得到的每个词的词权, 按以下计算类别权值:
1.把每个类别权值WeightofCi清零;
2.根据所余下的关键词按次序从每一个开始,每一个词均按公式:
WeightofCi=WeightofCi + Kj*Wj
计算所有类别权值,其中Kj为该词的所有概念属于类别Ci的概念权值之和,Wj为该词的词类权重。
3.从所有的类别权值WeightofCi中找出那个数值最大所表示的类别作为该电子文本的类别。
四、自动分类模型的试验结果
我们用两个参数来评价文本自动分类的算法:查全率和精确率。
按以下公式计算类别Ci的查全率recallci和精确率precisionci:
|
|
|
|
我们预定义十一种分类的类别:政治类、军事类、经济类、法律类、文化类、体育类、卫生类、宗教类、工业类、农业类、交通类,从1998年的《人民日报 》选出的500篇新闻语料库,其中包括了各类预定义的类别的文本,利用所实现的文本分类模型进行自动文本分类,得到以下的实验数据。
|
政治 |
军事 |
经济 |
法律 |
农业 |
体育 |
卫生 |
工业 |
文化 |
交通 |
宗教 |
合计 |
人工分类 |
32 |
63 |
45 |
22 |
120 |
28 |
70 |
40 |
25 |
12 |
500 |
|
自动分类 |
32 |
39 |
52 |
50 |
23 |
118 |
24 |
65 |
36 |
20 |
10 |
470 |
正确分类 |
28 |
39 |
48 |
42 |
21 |
114 |
20 |
58 |
34 |
18 |
9 |
431 |
查全率% |
87.5 |
90.69 |
76.2 |
93.33 |
95.45 |
95 |
71.43 |
82.86 |
85 |
0.72 |
0.75 |
86 |
精确率% |
87.5 |
100 |
92.31 |
84 |
91.30 |
96.61 |
83.33 |
89.23 |
94.44 |
0.9 |
90 |
91.70 |
从上面可以看出,这个模型得到的结果是比较令人满意的,特别是精确率已经达到较高的水平,可见文本自动分类的方法还是可行的。自动分类中有些不能归类是因为其在归类判断中关键词的概念所属的类别太过分散,宜用手工分类。
五、结束语
中文文本的自动分类是中文信息处理领域中的一项重要研究课题,本文对中文信息分类技术及其应用作了初步的探讨 ,取到了较好的效果,为了进一步提高分类的准确率,可以在义原归类、词权确定、概念排岐等方面作进一步的工作。
本文在写作过程当中,承蒙《知网》的制作人董振东老师的认真指导,其所提供的《知网》也使本模型在实现过程当中节约了大量的时间和精力,在此表示诚挚的谢意。
参 考 文 献
1.James allen Natural Language Understanding
2.吴赣 程学旗 余智华 WWW页面的文档分类技术 计算语言学文集 1999.10
3.董振东 董强 知网 计算语言学文集 1999.10
4.曹素丽 曾伏虎 曹焕光 基于汉字字频的中文文本自动分类系统 山西大学学报 1999.2
5. 李蕾 钟义信 郭祥昊 全信息理论在自动文摘系统中的应用 计算机工程与应用 2000.1
A Module Of Automatic Chinese Documents Classification Base On Concept
Su Weifeng Li Shaozi
Department of Computer Science Xiamen University Xiamen 361005
Email: waveletsu@263.net
Abstract This paper present a module of automatic Chinese documents classification. After get keywords from the documents, we get rid of ambiguity of the keywords.Base on how_net,we get the concept of the keywords.We classify the document after we integrate all the keywords’ concept. It has been tested the this module had good effect.
Keyword document classification , concept , how-net , comprehensive information
作者简介:苏伟峰, 男 ,26岁,厦门大学计算机系硕士生。
李绍兹 男 ,厦门大学计算机系副教授