时间需要一分一秒的过,事情需要一点一滴的做!

渴望!勇气!自信!坚持!

博客园 首页 新随笔 联系 订阅 管理
     本体是概念和概念关系的集合,而主题词表/分类法也是主题词(概念)和关系的集合,其基本功能和本体具有一致性。目前,作为主要检索语言,各种主题词表和分类法已经覆盖各学科领域。复用现有领域本体可以使本体的建立事半功倍。但是,由于传统的主题词表与分类法中的术语是规范的(不能用自然语言来表达)、知识点是线性的(不能反映概念网络)、内容结构滞后(难以经常修订)、语义简单、缺乏对所应用资源的针对性等等,因此将其应用于数字图书馆的领域本体建设,需要对其进一步修改、完善。
    ●利用相关方法与途径获取。如果所建本体领域没有可用的主题词表和分类表,可以采用以下两种方式获取本体信息:一种是组织领域专家承建,领域专家通晓本领域学科体系和知识,能够较为准确地描述与提供领域本体的基本信息;一种是利用知识获取工具从数据库中提取,学科领域现有的不同类型的数据库可以看作是领域的知识源,通过一些知识获取技术(如关系数据库中数据字典、E-R图手段以及人机交互技术、机器学习技术等),从现有的数据库中提取专业术语,挖掘、发现学科的基本知识。
    如果将上述两种方式结合起来使用,可以获得更为完整和精确的领域本体信息。
      5 确定本体概念及关系
    这一阶段的主要目标是确定领域知识本体的主要概念,揭示概念间的各种关系,构筑起领域本体的概念模型。
    ●确定领域知识本体的核心概念集。如果是复用现有的本体,即可直接应用领域主题词表和分类表中的主题词与分类名称作为领域本体的核心概念。它们都是经过受控处理的,语义及等级关系清晰、严格,可以根据应用的需要直接复用。
    如果是通过其他渠道获得领域知识,那么确定重点概念及关系的过程,可以参考骨架法中提出的middle-out方法。这种方法不要求概念的选择是自底向上或自顶向下。因为在领域知识中要确定哪些是顶部概念、哪些是底部概念是非常困难的。可尽量选取最基本、最常见的概念及关系,并用精确无二义性的术语加以表达。同时对应编制一份“术语集”,把选择术语的过程加以描述,罗列出最终选定的术语,并对每个术语赋予相应的自然语言描述。
    ●构建领域知识本体概念关系。即将所获得的领域概念组织成概念网络。
    如果是复用现有的本体,首先应考虑主题词表和分类表的对应关系,即主题词表概念间的等级关系与分类法概念间的学科相属关系。分类表可以看作是领域本体概念网络的主体结构,主题词表可以看作是概念网络的各级概念节点。
    目前各学科领域现有的主题词表和分类法都有其相应的电子版,也出版了一些类表和词表完全结合在一起的分类主题一体化词表,这种一体化词表中每一类目都对应着一个概念,类目间的学科等级就是概念间的等级关系。如果领域的主题词表和分类法是分别的或是分类主题对照词表,分类表与主题词之间没有完全的等值对应关系,则需要另外创建类目概念节点。可先利用主题词表中的各参照项关系形成概念网络(具有等同关系的所有主题词可形成一个概念),然后将分类法的学科体系结构嵌入其中,作为概念网络的主干结构,再建立具有等级关系的类目节点和概念间的对应关系。
    如果是自己创建的本体,其概念关系的建立也应该遵循上述方法。所建立的本体概念间的基本关系应该包括等同关系、等级关系和相关关系。
    ●将本体概念及关系模型化。明确了本体的概念以及概念间的关系,接下来就可以采用一定的方法(如图示法)来揭示概念间的各种关系。
    6 本体形式化编码
    本体的形式化编码阶段就是用选定的本体语言来描述知识本体。
    对于知识本体的描述,可以采用自然语言或逻辑语言描述,若要实现较强的推理能力,一般要用形式化描述语言进行表述。描述本体的语言应该具备4个基本条件: ①基于某种形式的逻辑;②机器可读的;③具备编码语言的表达性\编码的精确性和语言的语义性;④支持语法和语义的互操作。
    本体的描述一般都是基于某种逻辑语言的,目前RDF(S)已成为一个能对本体进行初步描述的标准语言。而描述逻辑(DL)是一个相当重要的知识表示语言,目前正被积极应用于本体描述,或者作为其他本体描述语言的基础。描述逻辑吸取了KL-ONE的主要思想,是一阶谓词逻辑的一个可判定子集。与一阶谓词逻辑不同的是,描述逻辑具有强大的推理能力,能够提供完备高效的知识推理机制,满足本体知识表达的需要。而且,描述逻辑的语法容易转换成XML/RDF形式,因此基于描述逻辑的本体模型更适合Web环境下概念建模与知识共享。
    目前几个主要的知识本体语言——CKML、OIL、DAML+OIL和OWL就是建立在描述逻辑的基础之上的。其中DAML+OIL是结合了OIL和 DAML优点的一种本体描述语言,采用面向对象的方法用类和属性来描述领域概念的结构,具有清晰的语义,但不能表示规则。以DAML+OIL为基础的 OWL是一种网络本体描述语言,通过类和属性来描述对象,并通过公理来描述类和属性的特征和关系,可以构造很丰富的关系类并支持自动推理。
    上述本体语言的表述能力不断增强,其技术也日臻成熟,已成为W3C国际标准的OWL是一种发展势头很强的本体语言,应作为本体编码的首选语言。为了提高本体编码效率,可以使用一些辅助工具来完成。编码过程结束之后,应该把编码过程和编码结果以文档的形式保存下来,为本体共享提供规范的文档。
    7 本体的评价
    经过上述阶段,已经形成了一个初步的领域知识本体。本体能否实际应用,需要对其进行评估与测试。由于领域本体建设得不成熟,目前尚无通用的本体确认和评价的标准方法,更谈不上标准测试集。格汝伯(Gruber)[9]于1995年提出了本体构建的5条标准,即清楚(Clarity)、一致 (Coherence)、可扩展性(Extensibility)、最小本体的承诺(Minimal ontological commitment)、最小的编码偏差(Minimal encoding bias)。不过在其设计标准中并没有给出具体的评价内容。笔者类比于软件工程的软件测试,提出本体评价的标准。
    对应于软件开发过程的测试阶段,一般需要对领域本体的正确性和有效性进行评价,评价指标应包括:
    ●本体的完整性。即本体是否包括了该领域重要概念,概念及关系是否完整,概念的等级、层次是否多样化。
    ●本体的清晰性。即本体中的术语是否被清晰无歧义地定义。除了规范的主题、分类术语外,对本体进化产生的概念是否给出明确、严格的语义定义。
    ●本体的一致性。即概念间的关系在逻辑上是否严密、一致,能否支持本体在语义逻辑上的推理。
    ●本体的可扩展性。即本体可否顺利实施进化,本体能否在层次结构上可扩充,在语义上可丰富与完善,能否加入新的术语概念。
    ●本体的兼容性。即本体的开放性和互操作性,本体能否和其他领域本体及相关资源系统进行映射,包括系统层、逻辑层、语义层、表现层等的兼容和互操作。
    此外,对本体的评价还应包括本体建设过程中其文档的完备性、准确性、可操作性等的评价。
      8 本体的进化
posted on 2008-05-06 22:19  冢边木  阅读(530)  评论(0编辑  收藏  举报