洛威尔会议——数据库研究的自我评估(译文)

原文:The Lowell Database Research Self Assessment 。转载请注明原地址,谢谢!

 概要

       每隔几年资深数据库研究者们齐聚数据库研究特设会议,评估数据库研究的状况,并指出需要特别注意的问题。这份报告总结了这群研究者二零零三年五月四日到六日在美国Massachusetts Lowell(以下称洛威尔)召开的第六届特设会议的讨论和结论。这份报告强调了信息管理依然是大多数复杂软件系统的重要组成部分,并建议数据库研究者将重点放在如下领域:文本、数据、代码和流的整合,不同数据源的信息融合,不确定数据的推理,开放数据的关系挖掘,信息隐私以及自适应和修复。

简介

每隔几年资深数据库研究者们齐聚数据库研究特设会议,评估数据库研究的状况,并指出需要特别注意的问题。跟随着前人的脚步,这份报告与更早的几份会议报告[1][2][3][4][5]目标相似。沿袭着会议传统,在2003年五月上旬,25位代表着数据库研究领域中在研究方向,联系和地理位置上广泛而交叉的资深数据库研究者来到洛威尔,两天内集中讨论了数据库领域的定义和数据库今后的发展方向。会议产生了几个重要的观察报告。

受到新应用,技术潮流,新协同作用和数据库领域本身的改革的驱动,我们把注意力放在了信息的存储,组织,管理和存取上。信息的性质和来源每时每刻都在发生变化。每个人都意识到Internet,Web,科学和电子商务对信息和信息处理有着庞大的需求。同样有此需求是即将到来的微传感器技术,这种廉价的技术能使大多数事物实时地报告他们的状态。而这种每时每刻都可能在发生改变的信息正是某些监测事物状态和位置的应用开发的需要。传感器信息处理会使很多数据库热点提升到一个新环境,与此同时带来的是新约束和新机会。

如今Internet是应用开发的主要驱动引擎,特别是使跨企业的应用成为了可能。在历史上,应用功能是属于企业内部的,是可以在一个统一的管理下彻底地规定和优化的。不过,大多数企业热衷于与它们的供应商和客户交流以共享信息,这样就可以向用户提供更优质的服务。这从根本上说是跨企业的,并且需要对安全和信息进行更有力地整合的设施。这也为数据库管理系统(DBMS)社区带来了新课题。

数据库在科学领域的应用的重要性正在不断增加,特别是物理,生物,医学和工程。这些科学领域需要更先进的数据库产品提供对庞大而复杂的数据集的支持,同时也需要信息集成的方法。此外,数据分析,存储和已排序数据(包括时间序列,图像分析,网状结构计算和地理信息)的查询都会衍生一系列的数据,并且与全球数据网格进行整合。这些都是数据库管理系统帮助科技人员做到的。

除了这些信息管理的新变化之外,在传统数据库管理系统领域,我们也面临着重要的改变,比如数据模式,存取方法,查询处理算法,并行控制,恢复,查询语言和DBMS的用户接口。这些课题在以前已经被很好地研究了,然而,技术一直在改变惯有的规则。例如,磁盘和RAM的性价比越来越高,存取时间和带宽也在不断提升,但是没有容量和价格那么快。这种提升比率要求我们重新评估存储管理和查询处理算法。另外,由于处理器的缓存在大小和数量的规模上有了爆炸式的变化,这就要求数据库管理系统的算法能够自动随着缓存的变化做出相应的调整。这就是新形势下技术上的变化使得以往算法得到重新评估的两个例子。

数据库研究的另一个动力来自相关技术的成熟。例如,在过去的十年里,数据挖掘技术已经成为数据库系统的一个重要组成部分。信息检索需要与传统数据库搜索技术相整合,然而Web搜索引擎已经使得信息检索走进了千家万户。人工智能的许多领域正在制造结合了数据库技术的部件;例如,这些部件使我们能够处理语音,自然语言,不确定性推理和机器学习。

与会者们指出,这几天为计算机学科的不同领域提出“大挑战”是一个流行的承诺。每个大挑战都是不能被轻易解决的问题,因此打算作为某一给定领域的使命,比如信息效用[5]和用数十亿零件建造系统[6]。我们认为我们可以定义更多的大挑战。事实上,我们讨论过著名的个人信息管理器。个人信息管理器是一种为人的一生提供存储,组织和对数字编码信息进行存取的一种数据库。最后,我们肯定地认为由于信息管理技术是提出的大多数计算机科学大挑战的关键部件,那么关注单个大挑战是不合适的。此外,很多信息管理方面的挑战都远远超出了目前工艺水平。由于原有的大挑战已经在数据库社区充分饱和,所以我们决定不再增加新的大挑战。

在会议进行的这两天里,我们注意到许多影响信息管理的新应用,新技术潮流和新协同作用。从总体上看,这些热点需要一个与现有的设施不同的新信息管理基础设施。从此开始,第二节研究了这一基础设施的组件。第三节介绍了会议期间有争论的话题的讨论,和数据库研究下一阶段的工作。研究的下一阶段将把新信息管理设施向现实推进。

下一代基础设施

这一节讨论了各种基础架构的部件,它们中有些需要新技术,或者在一定程度还是设想。

2.1 文本,数据,代码和数据流的整合

数据库管理系统领域的研究一直集中在捕获,组织,存储,分析和检索结构化的数据。直到最近,一些研究者开始关注将DBMS所能管理的数据也扩展到文本,暂时性数据,空间性数据,声音,图像或录像。不过,网络已经清楚地表明这些更复杂的数据类型的重要性。但是普遍的问题是,当系统添加扩展功能时,很难使扩展如惯有功能那样干净。相反,有一种倾向做必要功能的最低限度以获得希求的新功能中最重要的部分结果是这些扩展倾向于创建“二等公民”——无法用于传统DBMS的“一等公民”出现的所有上下文的对象。这里有一些例子表明,反思我们处理特定元素的方法能改善一个系统的有效性。

面向对象(OO)和面向关系(OR)的DBMS展现了文本和其它数据类型如何添加到一个DBMS中,以及如何扩展查询语言以使其能操作扩展的数据类型。当前的数据库系统已经向支持跨文本和结构化数据的查询迈出了第一步,但是这样还不足以使结构化数据检索具有信息检索的概然推理的特点。为了做到更好,我们需要数据模型的全新表示。能存取文本和数据的查询语言也是如此。至少不确定性的管理所需的概然推理和其它技术必需成为DBMS的一等公民。

同样的,如今的数据库管理系统上增加的功能主要是能将用户定义的过程添加到查询语言中。这一功能允许用户向DBMS添加新数据类型和它的行为(或方法)。不幸的是这一功能使过程成为了二等公民,我们更希望代码也成为DBMS的一等公民。

触发器和主动数据库是DBMS内部可执行代码的另一个来源。当满足指定的数据库环境状态或一个确定的事件发生时,用户希望能收到DBMS的提醒。如果数据库有数百万个环境状态,周期性地查询数据库的某一状态是否为真是低效率,甚至是不可行的。相反,用户想指定监视的条件,然后当指定的条件为真时,由DBMS异步地提醒用户。DBMS产商们已经将触发器和警报器添加到它们的产品中,而且关于如何使这类工具变得可伸缩性已经有相当多的研究。无论以何方式,触发器和警报器已经被嫁接到原有的DBMS架构中。尽管在通常情况下完全由代码进行推理是不可行的,但让DBMS做简单的,或者可能只是合成的关于代码对象的推理是有用的。例如,我们就可以指望发现所有依托数据库对象的所有代码。

我们预计若干正在出现的应用类型会迫使数据流也成为DBMS的重要组成部分。即将到来的低成本微传感器将使能监视DBMS的新应用成为可能。用传感器实时地报告每个重要对象的状态将变成现实。例如,笔记本和放映机会附带一个传感器,而不是属性标签。为了找到丢失或被偷窃的放映机,用户就可以在监视系统上查询放映机的位置。这类监视应用需要被监视的事物的传感器信息流的支持。这些数据流将向DBMS提出新的要求,其中包括的方面有高性能数据输入,时间序列功能,日志维护和有效的队列处理。据推测,商业DBMS试图通过将数据流处理嫁接到传统的结构化数据的架构上的方法来支持监视应用。

最近,科学的一种新形式正在形成。每一个学科都在产生庞大的数据量,例如粒子加速器(物理学),望远镜(天文学),遥测传感器(地球科学),基因芯片(生物学)。计算机模拟也在产生庞大的数据集。组织,分析和总结这些巨大的科学数据集是一个对DBMS真实的挑战。来自于分布在网格中的各种处理过程和分析程序的数据定位和传输也是如此,迎接这一挑战需要了解处理结点的整体架构与其中每个模块的需求和行为。满足以上需要的DBMS需要数据与过程的整合,这将把复杂数据和先进的数据分析整合进DBMS

在我们看来,是时候停止将新结构嫁接到过去传统的架构上。相反,我们应该重新考虑DBMS基础架构并着眼于支持

结构化数据;

文本,空间,时间,图像和多媒体数据;

程序的数据,就是数据类型和封装程序的方法

触发器

数据流和队列

作为DBMS架构中平等且重要的部件。它们的接口及其实现也应如此,而不是作为后来者嫁接到相关内核中。

与会者们建议研究社团从头重新开始研究,这在大多数情况下会更有利。往SQL,XML模式和XQuery中添加功能可能会导致系统缺乏一个连贯的核心而变得笨重。由于XML模式和XQuery过于依赖先前的标准,我们坚信它们已经太复杂了,以致于不能成为DBMS新架构的基础。对信息交流来说,自我描述的记录格式是一个伟大的想法,但对于我们所设想的那种在其中过程,文本和结构化数据地位平等的DBMS来说,这种记录格式并不是特别方便。最后一点,一种新信息结构是无法承受过去政治性的妥协的。我们相信DBMS产商将继续奉行扩展SQL和扩展XML的策略,以逐步改善原有的产品。相比之下,研究界应该探讨这一问题的重新概念化。

这一新结构的研究是我们研究界未来五年内的目标。我们期待在下届特设会议之前会有里程碑式的实质性原型。

2.2 信息融合

企业着手处理语义范畴上的信息集成已有十年多了。典型的做法是提取工作数据,将产生的数据转换为同一模式,然后加载到数据仓库中,这样就可以进行查询了。在这一过程中,信息集成会提前进行,并通常使用转换—加载(ETL)工具建立数据仓库和数据集市。这在由一个公司统一地控制几十个业务系统的情况下是可行的。

然而,因特网完全打破了这种提取,转换和加载的模式。如今我们需要跨企业的信息集成,而且信息集成的基础通常是特设的。很少组织会允许外部对组织业务系统中所有数据的提取,所以数据肯定留在源头,并且只能在查询时被访问。这部分工作现在能由一些商业工具完成,但其数据源只能是一个企业里的数据源中相对较小,静态的部分。

如前所述,传感器网络和科学研究会产生庞大的数据集。这些传感器和数据集可以分布在世界各地,并且动态的传回和取出数据。这便打破了传统信息集成模式,因为还没有一种切实可行的方法能将ETL工具应用于以上两种场合中的一种。

为此,信息集成必须飞越数以百万计的信息资源。DBMS研究界已经有好几年在调查联合数据系统,并形成了多份调查报告。第一份[1]报告就这个问题进行了广泛地讨论。然而,令人棘手的语义异构问题仍然没有解决。不同人设计的模式是不可能完全一样的。模式可能会含有不同的单元(比如你的工资是以欧元为意为,而我的是美元),不同的语义解释(我的工资是包括了午饭的净工资,而你的是毛额)和同一事物的不同称呼(你的数据库叫Samuel Clemens,而我的叫Mark Twain)。一个能部署在Web网络上的语义异构的解决方案仍然是难以捉摸的。我们研究界必须关注这个热点,并认真研究之,否则跨企业的信息集成依然是白日梦。同样的问题也发生Web语义中。无论是否从事数据库研究,所有研究于语义异构和其它相关问题的工作组的合作是极其重要的。

当然,要使有效的Web规模的信息集成成为现实,还有很多其它困难的工作等着我们。比如,现有的联合查询执行系统会将子查询发送到所有可能与子查询与关的数据站点,以此求得对查询的完整回答。然而在Web上,这便是不可行的,而且执行的查询是基于证据不断累积的概然世界,因此查询的结果也远不是正确答案。又比如,常规的信息集成默认假定在每个数据库中的信息可以被自由地共享。当信息系统扩充至其它自治企业时,查询过程必须处理诸如,每个数据库只返回查询所需的与其安全策略相一致的最少信息。再比如将信息集成技术整合到跨越多个数据源的监视应用中。例如当我的驾车路线接近我出席的会议地点附近的住宿酒店通知我。

2.3 传感器的数据与网络

传感器网络由数量庞大的低成本设备组成,每个设备都是一个数据源,因为每个设备都在检测着一些属性量,比如物体的位置或者环境温度。如前所述,这类网络提供了重要的数据源并且对数据管理提出了新的要求。例如,这些传感器设备通常都是自供电的无线设备。这类设备在发送和接收信息消耗的电力比计算要大。故而,在查询整个网络的信息时,倾向于将尽可能多的计算工作分配一个独立的结点。事实上,传感器网络已经成为了一种新的数据库机器。越接近于数据运算的操作越能传感器网络的使用达到最优。

在传感器网络中的查询需要能适应快速变化的网络布局,比如有些传感器会从网络退出或无法连接到网络。查询计划必须随着传感器网络的变化而变化,然而如今的数据库系统却不具备这种能力。

同时,传感器也暗示着要处理数据集成的新的复杂形式。一个普遍的例子就是传感器并不是完全标准化的。解析从传感器传回的值需要指明是哪个传感器。一个更复杂的工作是传感器数据处理应能从非常低水平的信号推导出非常高水准的事实。例如,我们可能想通过结合热传感器,声音传感器和振动传感器来定位附近的一个人。

2.4 多媒体查询

显而易见,如今多媒体数据(图像,视频,音频等)正在大幅增加。数据库研究的一个挑战就是为分析,汇总,搜索和查看某人的多媒体信息“电子鞋柜”寻找简单方法。课题研究从Vannevar Bush的麦克斯存储器[8]视觉到为伯母Betsy准备关于儿童的多媒体演示之类普通的工作。这些目标的实现需要远远超过当前工艺水平的设备来支持多媒体信息的管理。

2.5 不确定数据的推理

用于商业数据处理的传统DBMS通常把重点放在数字和字符串的处理上。在那些应用领域,数据元素如地址,库存数量,全额,职位和发送时间都是明确的量。正因为如此,现在的DBMS对付近似数据和不准确查询毫无办法。

除了商业数据处理,所有数据在本质上都是不确定或不精确的。科学测量有标准误差。运动物体在当前位置的位置数据包含着不确定性。序列,图像和文本的相似度都是近似度量。科学家为了分析不精密度,需要知道数据从何而来(仪器,仪器的设置)以及在数据被解析前进行了何种清洗,重新调整和重新建模等,所以必须追踪数据的“血统”(或者说“起源”)。显然DBMS需要内置对数据不精确性的支持。

如前所述,查询处理必须从每个查询对应一个确切答案的确定模式转移到推测模式。在推测模式中,查询处理器通过不断积累查询论据来为用户查询提供越来越好的查询结果。用户还可以要求不精确的查询以及处理引擎包括更多这种不确定性来源。当然,由于存在不精确查询结果,系统有义务描述所提供的查询结果的准确性,这样用户就可以明白近似结果是否满足他们的需要。例如,信息检索系统测量检索结果的精度,并反馈给研究者,帮助他们了解结果是否令人满意。

2.6 个性化

某些与会者提出查询结果应根据用户的个人资料给出。一位某领域的专家得到的查询结果与一位新手得到的应是不一样。关联和关联反馈也应取决于用户和环境。这对于来自多个资源的数据是可能的。这些数据按照某一意图进行组织,并为其它应用而服务。例如,健康信息应针对某一单独用户的卫生保健(例如医院记录,药方,药物疗效,家庭医史,免疫记录,牙齿记录和保险索赔)。下一代信息系统应实现大众的个性化,而所需要是一个包含和开发个性化所需的元数据的框架。

与会者同时指出个性化和不确定性使得人们需要核对信息系统是否在产生“正确”的结果。例如,如果信息系统有漏洞并且产生错误的近似或个性化结果,那将是怎样的灾难?

2.7 数据挖掘

从数据挖掘的历史来看,其一直关注于发现已有数据集的模式的有效方法。这些模式必须反映数据某些有用的方面,并隐藏对预期的应用无用的细节。许多研究组都开发了执行诸如分类,聚合,关联规则发现和归纳这些操作算法。这些技术现在都成为DBMS主要产商的主流产品的一部分。如今全球财富500强的公司和相似的小型应用程序都在大量地使用数据挖掘和商业智能。现有数据挖掘工具的成功为下一代工具带来了市场需求,例如全球财富500强的公司的数据仓库的使用者一直进行着一个单一的数据挖掘的查询:“有什么令人感兴趣的事情吗?”他们很高兴有当前这些数据挖掘工具,但是他们希望能有擅长于产生令人意想不到的“智慧珍珠”的工具。

找寻这类“珍珠”是在数据库后台运行,并且消耗了过多的数据库资源。为此开发出筛选所需的算法和结构是数据挖掘的一个挑战。另一个重要的课题是将数据挖掘与查询,优化和触发器这类数据库工具进行整合。我们希望数据挖掘跳出基本操作的算法朝着这个方向前进。我们也感到计算机科学和IT课程应包含更多的数据挖掘工具的使用知识。

2.8 自适应

数据库的广泛使用带来的一个结果是数据库管理员(DBA)能力的下降。现代数据库比之20年前更趋于复杂。如今,数据库管理员必须了解硬盘分区,查询并行执行,线程池和用户定义数据类型。这些概念在昔日的数据库中从未出现。简而言之,现在的DBMS太难用了。为了弥补这一缺点,主流DBMS供应商开始简化数据库管理。

这类简化至少有两个方面。首先,如今的DBMS有一大堆“调谐旋钮”。专家可以使用它们将数据库系统调整至最优状态。然而,专家通常是DBMS供应商的工程师,而且这类调优让客户花费巨大。事实上,大多数做调优的系统工程师并没有深刻理解“按钮”的含意。相反,他们已经见过很多系统配置和系统负荷量,所以配置新环境时,他们就拿着最接近新环境的其它系统的配置优化参数来优化新环境。

目前来看,将基于规则的系统和有属性设置和配置数据的数据库结合起来进行调优应该是可能的。在这方向已经有很多领域取得了巨大的进展,比如动态资源分配,物理结构选择,在一定程度上也包括物化视图(由DBMS维护的用于加速特定查询的冗余数据)的选择。这些进展大都是由DBMS供应商取得的。在我们看来,最终目的是“无旋钮”。系统可能根据默认策略自动配置,比如反应时间和吞吐量的相对重要性,或者由用户需求归纳得出的用户概况。所以,更加复杂的用户行为和工作负荷的模型是这领域取得进展的前提。我们相信现实的“无旋钮”操作是可以实现的,而且我们建议研究界将这一目标作为研究重点。

许多使用DBMS的新应用程序将要求有自动操作。除了“无旋钮”调优之外,DBMS还必须分辨内部故障和通信部件故障,确认数据是否损坏,侦测应用程序失败原因并且为此做一些事情。这些功能需要DBMS的自我意识更强并且为DBMS提供当前所参与的信息系统的明确的模型

2.9 隐私

网络的广泛应用使得关于个人的信息激增。而且,现在有大量的引擎在探寻数据库之间的相互关系。这种融合使得可以发现数量空前的个人信息。比如每个人曾经住过的每个地址,这类平实的数据可以很容易地获得。找到曾经住在某一地址的人也似乎很容易,这样找到某人以前的一个邻居也就简单了。也有人宣称搭乘同一航班的所有乘客的数据也能获得。更进一步,由于不难获得一位死者的重要个人记录,利用这些信息和假名就可以申请信用卡,故而身份盗窃成为令人不安的国家性问题。

面向数据的安全性研究在19世纪80年代很热门,但在这之后就偃旗息鼓。我们了解现在有重振这一子领域的需要,但却是面向明显不同的方面。今天,我们需要存入业务,策略和程序来支持多人对第三方数据的选择和控制。这一系列的课题很可能与在Web网以前的单个组织的数据安全模型大不相同。尽管法律对处理信息隐私和相关安全问题仍有重要作用,我们依然可以改变可选项的设置,并且通过推进可实现的技术使得隐私安全权衡变得更好。

由于大多数信息关联由DBMS执行,安全系统应包括处理未来如何使用数据的部件。我们社会也就能工作这样的安全系统之上。存取命令不仅要依据请求数据的人做出,还要依据数据的使用目的。况且,由于我们已经有在其它领域处理面向数据的声明规范的经验了,所以指明数据请求的目的的声明系统是我们社会所擅长的。

2.10 可信赖系统

可依赖系统能安全地存储数据,保护数据免受未被授权的接触,防止数据丢失并总是能提供相应数据给授权用户。隐私管理只是可依赖系统的更广泛的课题的一方面。现在数字版权管理越来越受到关注。数字版权管理包括保护知识产权和允许私人谈话。此外,保证查询结果的正确性和数据密集型计算的热度也在上升,特别是包括卫生保健卡等其它医疗应用的嵌入式系统。逻辑推理技术可能会在诸如定理证明和模型检查等应用的正确性验证上起作用。信息管理社区应为满足这类需求起研究中心的作用,并且在DBMS增强支持这些功能的机制。

2.11 新用户接口

多年来人们一直感叹数据库研究界在用户接口方面做的工作太少了。如今桌面系统可以支持非常复杂的视觉系统。然而,对于DBMS中的某一信息类型来说,如何最好地呈现结果是不清楚。19世纪80年代时,提出过一些面向信息展示的平滑可视化系统,比如著名的QBE和VisiCalc。在最后的15年时,它们并没有什么可圈可点的进展,所以在这一领域急切地需要更好的点子。

三十年来查询语言的研究可以归结为:“我们已经从SQL迁移到XQuery”。充其量,我们从一种声明性语言转移到第二种表达性与第一种大致相同的声明性语言。终端用户将不需要学习SQL是有据可查的;相反,SQL是专业程序员使用的符号。在其它研究领域,我们看到一些可能影响在接口上影响面向数据库的研究的想法。信息检索使用关键词进行查询已经有十年了。而在很多领域,监视已经变得越来越热门了。

也许“语义Web”所带来的研究契机是最令人感兴趣的。尽管不知道这一概念真正带来的是什么,现在大部分工作的重心集中在“实体论”上。概念和概念之间的关系通常存在于形式化语言中。一个实体通过识别它们来描述话语的域。在2.2节,我们提到这一工作如何支持信息集成。这一领域的基本问题是如何将对在深层次上其实是一样的事情采用不同术语进行描述的数据库融合起来。实体论的工作也许同样可以让数据库或其它资源的用户使用他们自己的术语来查询。数据库研究界应寻找机会开发未来数据库管理系统的这些技术。

2.12 一百年存储

随着世界信息的增长,数字化存储也在增长,这就带来了信息的无限电子容量的需要。然而,即使是归档的信息也在消失,这是由于信息存储在正在变质的媒介(如胶片和磁带),需要过时的设备进行解析的媒介(特殊存储设备)或者由于解析信息的应用程序不再使用的原因。避免这种信息流失的需要信息迁移和模拟。信息迁移可以使信息从正在变质或过时的媒介中拷贝出来。模拟可获取解析长时间存储的信息的方法。

元数据也扮演着重要角色。例如,科学数据的采集要求数据的“血统”和存取数据的任何读程序。描述背景的元数据可能也很重要。例如,尽管2003年的表是以欧元为单位,或者说1983年的表只有西德的状况,德国多年来的社会服务开支表也不一定明确地表明1983年的表是以马克为单位的。没有这些不明确的背景,即使这些数据可以被使用,也是没有意义的。当我们信息管理研究界建造无限量存取的数据仓库时,社会通常会获得巨大的利益。在一定的可能范围内,这一仓库会自动执行不同格式间的数据迁移,或者修复每个文档都需要使用的硬件和软件。它还将管理存储的文件的元数据。

2.13 查询优化

很多与会者将查询优化视为以上讨论的一个重要元素,或者另一个重要元素。当处理海量数据时,我们更倾向于用常规的办法来操纵数据。这一普遍原则使得诸如SQL和XQuery这类非常高层次的语言成功地使用在数据库世界,然而其它地方就几乎不行了。但是,高层次的语言需要优良的优化器。与会者们提出我们在信息集成的优化上的研究需要更进一步。优化的内容包括半结构化语言如XQuery,流处理器,传感器网络和其它可能的领域。

       我们也发现SQL系统的许多应用都有相对简单的查询序列。这些查询序列嵌入在宿主语言中与宿主语言一起执行程序。这让我们了解到有必要考虑包含大量查询的嵌入式查询的优化,即使这种嵌入式查询的设置是传统的,纯关系的。

下一阶段和讨论

在报告主体中提出的许多研究方向都是长期目标。然而,对数据库研究的下一阶段,出席洛威尔会议的与会者有着若干提议。这些提议到下一次会议举办前应是可实现。一些提议已经在上文中提到,比如反思能处理新数据类型的DBMS架构,近似推理与过程和数据的平等。在这一节,我们讨论其它的提议。

我们认为生成测试台和集成作业集会使信息集成研究得到很好的支持,这样做可以使任何想做数据集成的人方便地使用测试台。测试台使得研究人员以一种控制方式来比较解决方案,这包括如果某种解决方案在集成作业中的这一个或另一个表现最好的话,此种解决方案就有机会吹牛。因而也会使研究者对研究产生兴趣。一些研究者指出在信息检索研究界TREC[7]正起着相同的作用。

关于如何建立这一测试台有着相当多的讨论。对照实验的实现有很多设计问题,最紧迫的问题是获取合适的数据集。一种可能会实现的提议是10到20个计算机科学系开放一些他们非专利的课堂调度或者其它数据。计算机科学系中任何一个可以获取这一数据集的成员都被催促着去联系Mike Stonebraker,而他会协调测试台的建设。也许我们可以提出一个拥有更庞大数据集的测试台。

如今传统的亟待解决的研究课题(如ACID属性)已经有了相当多的支持。有人反对说相关技术的巨大改变可能要求我们重新审视这些传统问题,而且发现更易于实现的更简单的方法或者更能广泛适用的更强大的方法总是会有潜力的。会议也就流处理系统是否需要新的DBMS引擎或者现在的流处理系统是否能成功地适应新要求展开了热烈的讨论。

会议也集中讨论了信息集成应该发生在哪一层次上。虽然很多人认为DBMS是执行信息集成的最好场所,但其它人认为在应用程序(例如Web服务)上执行会更自然,更普遍。关于Web服务是否会在处理语义异质性的问题上取得进展也开展了相当多的讨论。某些人认为这类服务的实际标准会产生,然而其它人反对说电子元件社区多年来一直在努力标准化一组服务(Rosette网),但只获得了有限的成功。

作为结语,我们讲述两个普遍认同的意见。首先,数据库研究界应该避免将自己的研究范围过于狭窄。我们需要探寻数据库与相关技术的结合之道。这些技术能改善信息利用,比如信息可视化技术,这项技术通常被搁置在其它研究社区的领域内。为了扩充数据库研究者能使用的技术,研究者们需要扩展他们能力的广度。这让人想起许多年以前成立的泥水工联盟。当时墙板正在走进人们的生活,然后这却并不在泥水工们的能力范围之内。当泥水工被墙板取代时,联盟也解散了。如果DBMS的研究者们不接受将相关技术整合进信息管理的挑战,那么上一事实就可能会发生在DBMS社区。

       第二,我们注意到这几次会议的与会者的平均年龄正在增加。在另一方面,年轻的数据库研究者们也在加入到社区中,而且比以往任何时候都要多,这可以从数据库的初级教师的庞大数量中看出。我们建议下一届会议应更广泛地邀请数据库研究界不同的年龄群体。

参考文献

[1]Philip A. Bernstein, Umeshwar Dayal, David J. DeWitt, Dieter Gawlick, Jim Gray, Matthias Jarke, Bruce G. Lindsay, Pete C. Lockemann,  David Maier, Erich J. Neuhold, Andreas Reuter, Lawrence A. Rowe, Hans-Jörg Schek, Joachim W. Schmidt, Michael Schrefl,  and Michael Stonebraker: Future Directions in DBMS Research - The Laguna Beach Participants. SIGMOD Record 18(1): 17-26 (1989)

[2] Abraham Silberschatz, Michael Stonebraker, and Jeffrey D. Ullman: Database Systems:   Achievements and Opportunities.  CACM 34(10): 110-120 (1991)

[3] Abraham Silberschatz, Michael Stonebraker, and Jeffrey D. Ullman: Database Research; Achievements and Opportunities into the 21st Century. SIGMOD Record 25(1): 52-63 (1996)

[4] Abraham Silberschatz, Stanley B. Zdonik, et al: Strategic Directions in Database Systems Breaking Out of the Box.  ACM Computing Surveys 28(4): 764-778 (Dec. 1996).

[5] Philip A. Bernstein, Michael L. Brodie, Stefano Ceri, David J. DeWitt, Michael J. Franklin, Hector Garcia-Molina, Jim Gray, Gerald Held,  Joseph M.Hellerstein, H. V. Jagadish, Michael Lesk, David Maier,Jeffrey F. Naughton, Hamid Pirahesh, Michael Stonebraker,  and Jeffrey D. Ullman: The Asilomar Report on Database Research. SIGMOD Record 27(4): 74-80 (1998)

[6] CRA Conference on "Grand Research Challenges" in Computer Science and Engineering, http://www.cra.org/Activities/grand.challenges/.

[7] TREC Data home page, http://trec.nist.gov/data.html.

[8] Vannevar Bush. "As We May Think." Atlantic Monthly (July 1945), pp. 101-108.

[9] Serge Abiteboul, Rakesh Agrawal, Phil Bernstein, Mike Carey, Stefano Ceri, Bruce Croft,David DeWitt, Mike Franklin, Hector Garcia Molina,  Dieter Gawlick, Jim Gray, Laura Haas, Alon Halevy, Joe Hellerstein, Yannis Ioannidis, Martin Kersten, Michael Pazzani, Mike Lesk, David Maier,  Jeff Naughton, Hans Schek, Timos Sellis, Avi Silberschatz, Mike Stonebraker, Rick Snodgrass, Jeff Ullman, Gerhard Weikum, Jennifer Widom,  and Stan Zdonik, The Lowall Database Research Self-assessment. Communications of the ACM 48,5(May 2005), 111-118

 

posted @ 2012-04-22 16:13  眺望海接天  阅读(458)  评论(0编辑  收藏  举报