<转>语义网:能理解人类语言的智能网络(注:这应该是我看过的最通俗的一篇关于语义网的说明文章了)
6月15日,芬兰总统哈洛宁在芬兰首都赫尔辛基举行的首届“千年技术奖”颁奖仪式上,将100万欧元的奖金和名为“顶峰”的纪念奖品颁发给“万维网之父”——英国科学家伯纳斯·李教授。今天,世界几十亿人得以坐在个人电脑前自由翱翔于网络世界,就是因为伯纳斯·李发明的万维网。
万维网的不足
万维网(简称WWW或Web)是互联网最重要和最广泛的应用之一,利用万维网用户可以浏览互联网上所有的信息资源。但是,万维网存在两个明显的不足:(1)计算机不能理解网页内容的语义;(2)网上有用信息难找,即使借助功能强大的搜索引擎,查准率也比较低,它在帮助网民得到成批相关网页的同时,也夹杂了许多用户不需要的信息垃圾。
存在这些问题的原因在于万维网现在采用的超文本标记语言(Hyper Text Markup Language,简称HTML),网页上的内容设计成专供人类浏览的,而非供计算机理解和处理的,因此无法为网民提供自动处理网上数据的功能。此外,万维网是按“网页的地址”,而非“内容的语义”来定位信息资源的,网上所有信息都是由不同的网站发布的,相同主题的信息分散在全球众多不同的服务器上,又缺少有效工具能将不同来源的相关信息综合起来,因此形成了一个个信息孤岛,查找自己所需的信息就像大海捞针一样困难。
为了使人们能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,同时使计算机能够理解网页内容,帮助人们处理许多烦琐的日常事务,1998年,在发明万维网10年之后,伯纳斯·李提出了下一代万维网——“语义网”的理念。
语义网具有智能评估的能力
通俗地说,“语义网”是按照能表达网页内容的“词语”链接起来的全球信息网;换言之,是用机器很容易理解和处理的方式链接起来的全球数据库。
语义网是现有的万维网的变革和延伸,它将使“理解网上信息的含义”不再是只有人类才能做到的事情,计算机在一定程度上也同样可以做到,从而有助于信息与智能的共享,并使网络有能力提供动态与主动的服务,从而更利于人机之间的对话和协同工作。例如,人们看到网页上的天气预报,自然就会知道其中的含义,但计算机并不知道在那么多的数字中,哪一个数字代表温度,哪一个数字代表湿度。而语义网的意义就要在隐藏的编码中,指明哪个数字代表温度,哪个数字代表湿度,并且说明“温度”和“湿度”的含义。
语义网最大的好处是可以让计算机具有对网络空间所储存的数据,进行智能评估的能力。这样,计算机就可以像人脑一样“理解”信息的含义,完成“智能代理”的功能。使用语义网搜索引擎搜索的结果也将比万维网更为精确。
此外,由于大部分科技创新和突破,都是对已有知识的重新组合和更新,因此语义网也为新的科技创新提供了无尽的资源,它可以在很短的时间内,完成一个人甚至需要一辈子才能做出的组合结果。
语义网是对万维网本质的变革
语义网为实现让计算机能够自动识别和处理网上信息,需要在文档内容中加入供计算机读的“标记”,这就需要采用所谓“标记语言”。一般地,不同应用领域的标记符或规则是不一样的。例如,在医疗系统常用的标记符有“病人序列号”、“药品名”、“药物反应”、“就诊时间”等。因此“标记语言”必须是灵活的、可扩展的,以便给使用者提供自定义功能,称为“可扩展标记语言”。
语义网更主要的技术难题还在于要让电脑可以进行很多的“思考”和“推断”。因此,要真正实现实用的语义网还有很多工作要做。比如,要使语义网搜索的更精确彻底,更容易判断信息的真假,从而达到实用的目标,首先需要制订标准,该标准允许用户给网络内容添加元数据(即解释详尽的标记),并能让用户精确地指出他们正在寻找什么;然后,还需要找到一种方法,以确保不同的程序都能分享不同网站的内容;最后,要求用户可以增加其他功能,如添加应用软件等。
目前我们使用的万维网,实际上是一个存储和共享图像、文本的媒介,电脑所能看到的只是一堆文字或图像,对其内容无法进行识别。万维网中的信息,如果要让电脑进行处理的话,就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理,这是相当麻烦的事情。
语义网是对万维网本质的变革,它的主要开发任务是使数据更加便于电脑进行处理和查找。其最终目标是这些资源达到几乎无所不知的程度,计算机可以在因特网上的海量资源中找到你所需要的信息,从而将万维网中一个个现存的信息孤岛,发展成一个巨大的数据库。
语义网将使人类从搜索相关网页的繁重劳动中解放出来。
例如,在浏览新闻时,语义网将给每一篇新闻报道贴上标签,分门别类地详细描述哪句是作者、哪句是导语、哪句是标题。这样,如果你在搜索引擎里输入“鲁迅的作品”,你就可以轻松地找到鲁迅的作品,而不是他人写的关于鲁迅的文章。
总之,语义网是一种更丰富多彩、更个性化的网络,你可以给予其高度信任,让它帮助你过滤掉你所不喜欢的内容,使得网络更像是你自己的网络。