Web 信息抽取技术
当前的Web 信息抽取技术由于领域需求和研究重点的不同,涌现出了各种各样的Web
信息抽取的方法。根据其技术路线的不同,可以分为以下的几类:
1 基于自然语言的Web 信息抽取
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与
计算机之间用自然语言进行有效通信的各种理论和方法。基于自然语言处理的方法在一定程
度上借鉴了自然语言处理技术,利用子句结构、短语和子句之间的关系,建立基于语法和语
义的抽取规则来实现信息抽取。目前采用这种原理的典型系统有RAPIER[3], WHISK [2]。下
面介绍比较有代表性的WHISK 系统。
WHISK 系统既适用于结构化、半结构化的文本也适用于自由文本。该系统并不需要提
前进行语法分析,它的规则不仅由文本中的一个短语或一系列与某领域相关的短语学习而得
到,还可以由这些短语的约束学习得到。为了尽可能加入人的参与,该系统同时学习和标记
训练数据,而不是随机取实例进行手工标记。系统使用语法分析器和语义类(如人名、机构
名)分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语义类
标记的抽取规则,实现信息抽取。
这种方法的缺点是:没有很好的利用HTML 文档的层次结构;需要大量的人为参与的
工作,很难实现自动的抽取;只支持记录型的语义模式结构,不支持复杂对象的抽取。所以
此方法适用范围较窄。
2 基于HTML 文档结构的Web 信息抽取
这类Web 信息抽取技术的特点是依赖于HTML 文档的内部结构特征。在信息抽取之前,
将HTML 文档解析成能够体现该文档标签层次关系的语法树,通过自动或者半自动的方式
产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。采用该类介绍的典型系统
有LIXTO[5]、W4F[6]和DataRover[4]等。
DataRover 利用启发规则发现分类片段中的结构规律。然后利用这些规律将在线目录转
换到数据库中的分类产品。该系统使用了一个页面分割算法将Web 页解析的DOM(文档对
象模型)树作为输入通过该算法找到其中的逻辑段。该系统的不足之处在于:这个方法依赖
于HTML 页解析的DOM树,由于大部分的HTML 页是非良好结构的,所以解析产生的DOM
树也不完全正确;另外,此系统只适用于那些包含明确分类的领域,使用范围比较窄。
LIXTO 可以生成包装器来将HTML 页转换成XML[13](可扩展标识语言)文档。允许用
户以可视化、交互式的方式对样本页面中的信息进行标记,系统通过记录用户标记的信息生
成信息抽取规则,实现对相似结构网页的信息抽取。它的不足之处是它的抽取规则使用基于
Datalog 的Elog 语言描述的,实现和优化校困难,另外抽取规则中抽取信息的描述不够丰富,
不支持图像信息和文献信息的处理。
3 基于包装器归纳方式的Web 信息抽取
包装器是指在一个信息集成系统中目标在于提供一个独立统一的查询接口并用于访问
多信息源的组件。基于包装器归纳方式信息抽取采用先模式方式根据用户标记的样本应用机
器学习方式的归纳算法,生成基于定界符的抽取规则[7]。采用这种方法的系统有WIEN[8]、
STALKER[9]等。
STALKER 系统执行分等级的数据抽取,它引入了ECT(嵌入分类树)来描述半结构化
文档结构。它将从任意复杂文档中提取数据的难题转换成从高层到底层的一系列较简单的提
取任务,从而实现信息抽取。
这种方法的缺点是包装器的针对性强,可扩展性较差,更缺乏对数据语义的主动理解。
只适用于页面结构不发生变化的情况。
4 基于本体的Web 信息抽取
这种方法直接依赖于数据而不是页面的结构,对于特定领域的应用,本体可以定位出现
在页面的常量并使用他们构建对象。采用这种方法的典型系统有KnowItAll[10]、QUIXOTE[11]
等。
KnowItAll 系统用于从Web 上独立领域中抽取大量事实。它由一个可扩展的本体和一些
包含通用规则的模板组成。这些模板可以为每个类创建抽取规则和在它本体中的联系。该系
统更适用于抽取由自由文本组成的Web 页。
这种方法的缺点是需要领域专家创建某一应用领域的详细的本体,工作量很大。
5. 基于RDF的Web教学资源抽取
根据当前Web教学资源的现状,针对当前Web信息抽取方法的缺点,本文提出了基于RDF
的Web教学资源抽取的方法。
1) Web 教学资源元数据标准
目前网络教学资源中的主流元数据主要有Dublin Core(都柏林核心,简称DC)、IEEE
LOM(IEEE Learning Object Metadata,学习对象元数据)和MARC(Machine Readable Cataloging,机
读目录)三种,其他元数据大多是在这三种的基础上或复用、或扩展而形成的。所以本文只
针对这三种元数据描述的资源信息进行研究。
1 Dublin Core
Dublin Core 是一个致力于规范Internet 资源体系结构的国际性联合组织,它定义了一个
所有WEB 资源都应遵循的通用的核心标准,标准内容较少,也比较通用,因此,得到了其
它相关标准的广泛的支持。其它关于学习资源的数据标准,基本上都兼容Dublin Core 标准,
并对它作了扩展。
2 IEEE LOM
由IEEE 学习技术标准委员会学习对象元数据工作组建立,用以完整、充分地揭示包括多媒体内
容、教育内容、教育软件和工具、参考资料等学习对象的属性特征,如类型、作者、所有者、发行类
型、格式、应用环境、教学要求等。
3 MARC
MARC 称之为“机器可读编目信息”,是图书馆用来交换、处理编目信息的通讯标准。
它提供了一个用于计算机交换、应用、解释图书、情报编目信息的一种协议。
RDF
资源描述框架[12](Resource Description Framework, 简称 RDF)是一个用于表达关于万维
网(World Wide Web)上的资源的信息的语言。它专门用于表达关于Web 资源的元数据。
从数据本质的角度RDF 图本质上是一个三元组的集合。一个三元组由主语(subject) 、
谓语(predicate)和宾语(object)组成。其中,主语对应所要描述的资源,谓语对应资源
的属性,宾语对应属性的值。每个三元组对应 RDF 图中的一条弧,且这个弧的起始节点和
终止节点分别对应三元组的主语和宾语。
RDF 采用的是XML 语法,继承了XML 的优点,可以很容易实现网络上的数据交换。
同时由于RDF 采用了简单的主语-谓语-宾语的三元组形式,当数据量很大的时候也很容易
控制,这也是RDF 优于XML 的体现,虽然XML 同样可以描述资源,但是就是因为XML
的描述元数据的格式复杂嵌套,所以比较难于控制,对元数据的使用效率要远低于RDF;
RDF 的这种简单的三元组格式也克服了XML 文档标识解释的不唯一性,方便了Web 上信
息的共享和利用。
当前的Web 信息抽取技术由于领域需求和研究重点的不同,涌现出了各种各样的Web
信息抽取的方法。根据其技术路线的不同,可以分为以下的几类:
1 基于自然语言的Web 信息抽取
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与
计算机之间用自然语言进行有效通信的各种理论和方法。基于自然语言处理的方法在一定程
度上借鉴了自然语言处理技术,利用子句结构、短语和子句之间的关系,建立基于语法和语
义的抽取规则来实现信息抽取。目前采用这种原理的典型系统有RAPIER[3], WHISK [2]。下
面介绍比较有代表性的WHISK 系统。
WHISK 系统既适用于结构化、半结构化的文本也适用于自由文本。该系统并不需要提
前进行语法分析,它的规则不仅由文本中的一个短语或一系列与某领域相关的短语学习而得
到,还可以由这些短语的约束学习得到。为了尽可能加入人的参与,该系统同时学习和标记
训练数据,而不是随机取实例进行手工标记。系统使用语法分析器和语义类(如人名、机构
名)分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语义类
标记的抽取规则,实现信息抽取。
这种方法的缺点是:没有很好的利用HTML 文档的层次结构;需要大量的人为参与的
工作,很难实现自动的抽取;只支持记录型的语义模式结构,不支持复杂对象的抽取。所以
此方法适用范围较窄。
2 基于HTML 文档结构的Web 信息抽取
这类Web 信息抽取技术的特点是依赖于HTML 文档的内部结构特征。在信息抽取之前,
将HTML 文档解析成能够体现该文档标签层次关系的语法树,通过自动或者半自动的方式
产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。采用该类介绍的典型系统
有LIXTO[5]、W4F[6]和DataRover[4]等。
DataRover 利用启发规则发现分类片段中的结构规律。然后利用这些规律将在线目录转
换到数据库中的分类产品。该系统使用了一个页面分割算法将Web 页解析的DOM(文档对
象模型)树作为输入通过该算法找到其中的逻辑段。该系统的不足之处在于:这个方法依赖
于HTML 页解析的DOM树,由于大部分的HTML 页是非良好结构的,所以解析产生的DOM
树也不完全正确;另外,此系统只适用于那些包含明确分类的领域,使用范围比较窄。
LIXTO 可以生成包装器来将HTML 页转换成XML[13](可扩展标识语言)文档。允许用
户以可视化、交互式的方式对样本页面中的信息进行标记,系统通过记录用户标记的信息生
成信息抽取规则,实现对相似结构网页的信息抽取。它的不足之处是它的抽取规则使用基于
Datalog 的Elog 语言描述的,实现和优化校困难,另外抽取规则中抽取信息的描述不够丰富,
不支持图像信息和文献信息的处理。
3 基于包装器归纳方式的Web 信息抽取
包装器是指在一个信息集成系统中目标在于提供一个独立统一的查询接口并用于访问
多信息源的组件。基于包装器归纳方式信息抽取采用先模式方式根据用户标记的样本应用机
器学习方式的归纳算法,生成基于定界符的抽取规则[7]。采用这种方法的系统有WIEN[8]、
STALKER[9]等。
STALKER 系统执行分等级的数据抽取,它引入了ECT(嵌入分类树)来描述半结构化
文档结构。它将从任意复杂文档中提取数据的难题转换成从高层到底层的一系列较简单的提
取任务,从而实现信息抽取。
这种方法的缺点是包装器的针对性强,可扩展性较差,更缺乏对数据语义的主动理解。
只适用于页面结构不发生变化的情况。
4 基于本体的Web 信息抽取
这种方法直接依赖于数据而不是页面的结构,对于特定领域的应用,本体可以定位出现
在页面的常量并使用他们构建对象。采用这种方法的典型系统有KnowItAll[10]、QUIXOTE[11]
等。
KnowItAll 系统用于从Web 上独立领域中抽取大量事实。它由一个可扩展的本体和一些
包含通用规则的模板组成。这些模板可以为每个类创建抽取规则和在它本体中的联系。该系
统更适用于抽取由自由文本组成的Web 页。
这种方法的缺点是需要领域专家创建某一应用领域的详细的本体,工作量很大。
5. 基于RDF的Web教学资源抽取
根据当前Web教学资源的现状,针对当前Web信息抽取方法的缺点,本文提出了基于RDF
的Web教学资源抽取的方法。
1) Web 教学资源元数据标准
目前网络教学资源中的主流元数据主要有Dublin Core(都柏林核心,简称DC)、IEEE
LOM(IEEE Learning Object Metadata,学习对象元数据)和MARC(Machine Readable Cataloging,机
读目录)三种,其他元数据大多是在这三种的基础上或复用、或扩展而形成的。所以本文只
针对这三种元数据描述的资源信息进行研究。
1 Dublin Core
Dublin Core 是一个致力于规范Internet 资源体系结构的国际性联合组织,它定义了一个
所有WEB 资源都应遵循的通用的核心标准,标准内容较少,也比较通用,因此,得到了其
它相关标准的广泛的支持。其它关于学习资源的数据标准,基本上都兼容Dublin Core 标准,
并对它作了扩展。
2 IEEE LOM
由IEEE 学习技术标准委员会学习对象元数据工作组建立,用以完整、充分地揭示包括多媒体内
容、教育内容、教育软件和工具、参考资料等学习对象的属性特征,如类型、作者、所有者、发行类
型、格式、应用环境、教学要求等。
3 MARC
MARC 称之为“机器可读编目信息”,是图书馆用来交换、处理编目信息的通讯标准。
它提供了一个用于计算机交换、应用、解释图书、情报编目信息的一种协议。
RDF
资源描述框架[12](Resource Description Framework, 简称 RDF)是一个用于表达关于万维
网(World Wide Web)上的资源的信息的语言。它专门用于表达关于Web 资源的元数据。
从数据本质的角度RDF 图本质上是一个三元组的集合。一个三元组由主语(subject) 、
谓语(predicate)和宾语(object)组成。其中,主语对应所要描述的资源,谓语对应资源
的属性,宾语对应属性的值。每个三元组对应 RDF 图中的一条弧,且这个弧的起始节点和
终止节点分别对应三元组的主语和宾语。
RDF 采用的是XML 语法,继承了XML 的优点,可以很容易实现网络上的数据交换。
同时由于RDF 采用了简单的主语-谓语-宾语的三元组形式,当数据量很大的时候也很容易
控制,这也是RDF 优于XML 的体现,虽然XML 同样可以描述资源,但是就是因为XML
的描述元数据的格式复杂嵌套,所以比较难于控制,对元数据的使用效率要远低于RDF;
RDF 的这种简单的三元组格式也克服了XML 文档标识解释的不唯一性,方便了Web 上信
息的共享和利用。