这分别有四个挑战。首先是鸡和鸡蛋问题:我们怎样建立这些信息, 因为除非一方面是你获得了信息你才能建立工具, 另一方面是除非你有工具你才能把信息放入其中。我的朋友刚刚问我,能否把网络上所有的URLs(包括dot-RDF, dot-OWL和两者的附加部分)都寄给他,因为他不能发现全部的部分。我看了一下, 并且结果显示那里只有20万上下,这大概是网络的0.005%。我们需要有一种方式去解决它。
下一个问题是有关本体论的竞争 。每个人都用不同的方式看待它。如果你有一些工具来测量它,我们将看见它的范围有多广。 然后是Cyc 问题, 这是背景知识和垃圾的问题。这是我每天必须面对的问题。如同你离开了实验室,进入现实的世界,有金钱利益的人会设法打败你。
所以鸡和鸡蛋的问题,那就是“在这类语义技术里有什么令人感兴趣的信息, 并且其他信息在哪里?”它结果显示,大多数有用的信息仍然是在文本里。我们关注的是你是怎样把它从文本中提取出来的。这里有一个小的演示叫IO 结。你可以键入一个自然语言问题,然后它会从文本中取出文档,并取出语义实体。并且你会看见, 这并不是相当完善的——比如不能解决好拼写问题。但这一切都是自动完成的,所以没有做把信息放到正确的位置上这样的工作。
总之,语义技术看起来对定义图解似乎有好处, 但另一方面什么应该进入图解呢。为了做到它,还需要加倍努力。
这是另一个例子。 这是昨晚的Google 新闻页, 我们在这里应用了汇集(clustering)技术,把新闻分门别类地集合在一起, 所以你看到首条新闻是关于布莱尔的,并且有658个相关新闻我们把它们汇集到了一起。
现在想象一下,如果不使用我们的算法(这些新闻是从新闻提供商那里获得的),而是按照他们想要的方式放置所有的元数据(metadata)和标签。“我的故事会被埋没在20页呢,还是头条新闻?我将放入自己的元数据。我谈论的那些人是恐怖分子还是自由战士? 什么是爱国者的定义? 什么是婚姻的定义?”
当你谈论这些政治问题而不是关于部分的数字时,你正是在为这类的本体论下定义; 这会成为一个政治声明。人们也许会惹来杀身之祸。这些是本体论不被运作的地方,会在它们的身上产生争议。并且你不得不转而依靠其它的方法。
本体论运作的最佳地点是,当你具有消费者的特权时,比如可以迫使服务提供者为你服务。比如汽车零件产业,汽车制造厂在那儿聚会说, “每一个想要卖给我们的人就做这个。”他们能做到如此,因为他们的数量很少。在其它产业, 如果有一个主要“运动员”,因为他们不想被其他人赶上,然后就想不参与比赛了。如果有许多个较小“运动员”, 就很难将它们组织到一起了。
语义技术为根本上打碎信息成为分散状态是有好处的。但根本上你仔细考虑的只是在尖括号(注:指代<>)之间的一部分。并且我们的创建者之一Sergey Brin,曾说过这样的话, “把东西放入尖括号的不是技术本身。”问题是什么应该进入尖括号。你能说, “很好, 我的数据库有一个人名字的字段,而你的数据库有一个姓字段和一个名字段,我们就将有在它们之间找到匹配的一种联系了。”但这并不总那么有效。
这有一个近几天在google公司值得思考的问题的例子,就是我们的“拼写改正”功能都是按照一种规范形式建立的。这是我们被询问最多的问题之一, 并且一个星期中有4,000 种不同的拼写变异在发展。某人想做这种规范。所以理解文本的问题就消失了,它在尖括号之间被强迫分解成更小的片断。因此这就是拼写改正的问题;有翻译问题,譬如把阿拉伯语翻译成一个罗马字母;有简称的问题:HP和Hewlett Packard 、惠普, 等等;还有同名的问题:迈克尔・乔丹是篮球运动员,CEO,还是伯克利教授。
让我们现在考虑背景知识的问题。Cyc 项目试图在一个字典里定义所有知识, 一种 Dublin Core类型的事,然后找到在字典或百科全书中没有的、但我们依旧需要的材料。Lenat 和Guha说那里是浩瀚知识的仓库,你很少会谈论, 比如“水向下流动”和“生命物质得了疾病”。
我认为我们能设法做如此大的一个项目。然后我决定把它简化一点——仅仅在它附近放入引用标签和键入它。所以当我键入“水向下流动”,我得到了1,200条结果。第一条结果说, “这是幼儿园老师Emily的教学计划。”它实际上解释了水为什么会流下来, 并且这是你在百科全书中找不到的。这里的结论是Lenat99.999993%正确, 因为43亿个案例中只有1200个实际上讨论了水向下流动。但那足够了, 并且你能从中继续进行查找。你能使用网络投票,你还可以说水泵可以提升水流,但那只发生了275次, 因此向下流动胜利了——1200次对275次。
实际上,我们在这儿做的,就是使用未受训练的大量的人力,你不必支付就可以完成所有的工作, 与其相对的是,经过训练的人使用明确定义的形式和以那种形式书写文本, 让我们就去使用已经是那里的材料吧。我尽力思考“非熟练劳动”的成果,设法把它用于对大量大数据的用途使用统计技术,并且通过在你自己那里过滤, 而不是完全遵从你的定义。
最后一个问题是垃圾信息。当你在实验室里并且定义了你的本体论, 一切看起来是好而整洁的。 但你一旦把它释放在网络世界中, 你会发现怎么有那么多不正直的人呢。这是例子:它看起来象两页。这实际上是一页。在左边的页面是Googlebot(Google 的网页检索漫游器)看见的, 右面的页面是通过其他用户代理看见的。这网站当它一旦看见Googlebot.com, 它显示的页面使得我们更匹配它,而当一名普通用户来浏览时, 它就显示想显示的页面。
这表明:第一, 我们有很多工作要做,来应付这种事, 而且你无法信任元数据。你无法确信人们将要说什么。总之, 搜索引擎摆脱了元数据的桎梏, 它们设法更多在对用户的感受上努力。很大程度上我们丢弃了元标记, 除非有一个真正相信他们的理由, 因为它们比有用更倾向于欺骗。并且如果那里是人们可能利用欺骗赚钱的市场, 它就更可能发生。人是非常擅长于发现这类垃圾信息的, 但机器不一定那样好。所以如果更多信息在机器之间流动, 这就是你所越来越多看到的。