摘要:本文介绍了web数据抽取的发展历史,总结了近年来国内外web数据抽取研究中所使用方法和研究现状,并介绍了数据抽取的评价指标,最后提出了目前web数据抽取仍然存在的问题。
关键词: web;数据抽取;包装器
0、引言
随着计算机广泛使用,大量有用的信息以电子文档的方式出现。而伴随internet的普及,很多有用的信息正在以惊人的速度,出现在internet中不同站点的web页面上。但web上的信息都是半结构化或非结构化的,主要以HTML语言的形式出现,不能直接用于分析处理。因此,如何将web上用户感兴趣的有用信息抽取出来,以便用户根据需要对数据加以分析,就成了现在数据抽取方面的研究热点。
1、信息抽取发展历史
信息抽取(Information Extraction)就是把文本里边包含的某些特定的信息提取出来,进行结构化处理,变成表格一样的组织形式。【02】信息抽取系统的主要功能是从文本中抽取出特定的事实信息(factual information)。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。【01】。从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息提取技术的初始研究。
20世纪80年代末期,消息理解会议(MUC)的召开,极大的促进了信息提取研究的发展。MUC系列会议对信息抽取这一研究方向的确立和发展起了巨大的推动作用。MUC定义的信息抽取任务的各种规范、确立的评价体系已经成为信息抽取研究事实上的标准。
此后,一系列信息抽取领域的国际测评会议的召开,如多语种实体评价任务(Multilingual Entity Task Evaluation , MET)、自动内容抽取(Automatic Content Extraction,ACE)、文本理解会议(Document understanding Conferences ,DUC)等,也对信息抽取技术的发展起到了很大的推动作用。
近几年,信息抽取技术在研究上主要侧重于:利用机器学习技术增强系统的可移植能力、探索深层次理解技术、篇章分析技术、多语言文本处理能力、web信息抽取以及对时间信息的处理等。至今已有不少以信息抽取技术产品为主的公司出现,比较著名的公司有Cymfony、Bhasha、Linguamatics和Revsolutions公司。
中文信息抽取方面的研究起步较慢,主要的研究工作集中在对中文命名实体的识别方面。其中我国的国立台湾大学和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的测评。Intel中国研究中心的ZHANG Yi-Min和ZHOU Joe F等在ACL-2000上演示了他们开发的一个抽取中文命名实体以及这些实体之间相互关系的信息抽取系统,该系统利用基于记忆的学习算法获取规则用以抽取命名实体以及它们之间的关系。【1】
2、web数据抽取技术研究现状
由于web上的信息大多是html文档的形式出现,且html文档主要是用于浏览,而不是用于数据操作和应用的。web信息抽取在传统的信息提取研究的基础上,将重点放在如何将分布在Internet上半结构化的html页面中的某些特定信息抽取出来,转化为结构化的形式,存在数据库中供用户查询、分析使用。
2.1web数据抽取方法分类
2.1.1基于自然语言处理的的数据抽取方式
该方式采用了过滤、词性和词汇语义标识来建立短语和语句元素间的关联,通过给定的例子学习抽取规则。【04】具体的说就是,把文本分割成多个子句、对每个句子的子句成分进行标记,然后将分析好的句子和实现定制的语言模式(规则)匹配,以获得子句的内容。规则可以人工编制,也可以从人工标注的语料库中自动学习获得。目前采用这种原理的典型系统有RAPIER、SRV和WHISH。
2.1.2基于包装器的数据抽取方式
所谓的包装器就是一个能将数据从html页面中抽取出来,并将它们还转化为结构化数据的软件程序。【03】一般而言,一个包装器只能处理一种特定的信息源。要对不同类型的web页面进行数据抽取,就需要有不同的包装器。(如图2.1所示)。与此相关的研究,基本集中在抽取算法的研究和包装器(Wrapper)的自动(或半自动)生成上。使用此类方法的web数据抽取系统有:WIEN,SoftMealy和STALKER等。
2.1.3基于ontology的数据抽取方式
基于Ontology的方法主要依赖一个完全的知识库。【05】采用该方法,事先要由领域内的知识专家采用人工的方式书写某一应用领域的Ontology,包括对象的模式信息、常值、关键字的描述信息。这种方法根据Ontology中常值和关键字的描述信息产生抽取规则,对每个无结构的文本块进行抽取,获得各语义项的值。另外,系统根据边界分隔符和启发信息,将源文档分割为多个描述某一事物不同实例的无结构的文本块【06】,将抽取出的结果放入根据ontology的描述信息生成的数据库中。
2.1.4基于html结构的数据抽取方式
由于HTML页面自身结构的特点,出现了基于HTML结构的信息抽取方式。该方法具有非常强的自动化能力,也是自动化性能比较高的数据抽取方式。【07】该方法在信息抽取之前通过解析器将HTML页面文档解析成语法树,通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法树的操作,从而实现信息抽取【08,09】。采用这种技术的系统有很多,有Lixto,XWRAP,以及RoadRunner,IE PAD,W4F,SG-WRAM和ANDES。
上述的各类数据抽取工具,其使用的原理不同,抽取规则的形式和感兴趣的信息的定位方式也各有不同,因此都不具备通用性。【10】
3、web数据抽取评价指标
MUC在衡量信息抽取系统的性能时采用的指标,与信息检索系统使用的指标类似。主要是召回率和准确率这2个指标。在数据抽取中使用的Recall和Precision虽然来自于信息检索领域,但其含义却稍有不同。在数据抽取领域,查全率(Recall)可以解释为被正确取抽出来的数据与应该抽取出来的全部数据的比例;查准率(Precision)可以被解释为被抽取出来的数据的正确率。
查全率(Recall)=被正确抽取出来的信息数/web页面上应该抽取出来的总信息数;
查准率(Precision)=被正确抽取出来的信息数/被抽出来的总信息数;
查全率(R)和查准率(P)的取值范围都在[0,1]之间,1.0为其最大值。一般而言,R和P之间存在的反比关系,所以一个系统要达R最优时,往往要牺牲一定的P;反之,P达到最优时,就会牺牲一定的R。
不同的数据抽取系统对P和R的侧重有所不同,为了同时比较R和P,以便综合评价系统的性能,提出了各种综合评价指标。如,F-度量(F-measure),该指标可以计算R和P的加权几何平均值。其计算公式如下:
F=(1+β2 )*P*R/(β2 *P+R)
其中,β为R和P的相对权重;当β=1时,P和R同等重要;当β>1时,P比R更重要;当β<1时,R比P重要。
4、web数据抽取存在的问题
目前,影响信息抽取技术广泛应用的两个最主要的因素是:系统性能和系统的可移植能力。【11】(1)性能较好的数据抽取系统,往往需要大量的人工参与,其自动化程度比较低;而自动化程度高的系统其精确度较低、实用性较差。(2)数据抽取系统的适用范围狭窄,每个系统只能在特定的领域内应用,可移植性能较差。如何开发出一个具有较高的自动化程度和精确度,又能适用于各个不同应用领域的数据抽取系统,成了目前研究人员共同努力的方向。
参考文献:
[01] 李保利 陈玉忠 俞士汶,信息抽取研究综述,计算机工程与应用, 2003, 10
[02] 张成洪,古晓洪,白延红,Web数据抽取技术研究进展,计算机科学,2004,VOL31
[03] L iuL ,P uC ,H an W .X WRAP:An XML-enable Wrapper Construction System for Web Information Resource.In Proceedings of the1 6th IEEE Intenrational Conference on Data Engineering[C ],San Diego,C alifornia,2000
[04] L.Yi, B.Liu, X.L.Ii. Eliminating Noisy Information in Web Pages for Data Mining.KDD-03,2 003:331-335 [05] C.H.Zhang,X .GWang,X .H.Gu.Web Information Exrtaction Using Ontology and Rule Expression.Computer Engineering,20 04,30(5):58
[06] YNa, X.J.Wu, J.B.Zhu. Web Information Extraction Based on Similar Paterns Lecture Notes in Computer Science,2 004,3129:645-651
[07] S.Li, Z.YPeng, M.C.Liu. Extraction and Integration Information in HTML Tables. Proceedings the Fourth International Conference on Computer and Information Technology.Wuhan,China,2004:315-320
[08] S.Soderland. Learning Information Extraction Rules for Semi-structured and Free Text , Machine Leanring,1999,34:1-3
[09] Q.Chen, WSu, G.C.Jisuanji. Web Information Extraction Based on Web Structure Tree . Computer Engineering,2005,31(20):54-55
[10] 朱巧明, 李培峰,吴娴,朱晓旭,中文信息处理技术教程-清华大学出版社,2005年9月,第1版
[11] Yangarber R.Scenario Customization for Information Extration [D].PhD Thesis.New York University ,2001-01
[12] 贺智平,Web信息自动抽取技术研究,西安电子科技大学硕士论文,2006.