桂林山水甲天下

Jacquette的技术生活

2009 年8月: Google 怎样在语义网上打败Amazon和Ebay (转载)

November 2nd, 2005

August 2009: How Google beat Amazon and Ebay to the Semantic Web
July 26, 2002 By Paul Ford

一个虚构的故事,关于语义网的剧本。2009 年商业杂志上的短篇特写。请注意这篇文章是2002年写的。

这真让人难以置信,Google(现在世界上最大的独立在线交易市场) 在仅仅8年多一点的时间就登上了舞台, 过去那可是Amazon和Ebay的统治领域。怎么Google 就成为了世界上最大的独立在线交易市场呢?

很好,简而言之,答案就是“语义网”(一会儿我再告诉你这是什么)。当Amazon和Ebay各自继续以每季赢利10亿和18亿美元的时候,任何人都认为这是成功的,但Google在网络交易市场每年盈利170亿美元则被认定是更加成功的故事,前所未有的——“新经济”。

Amazon和Ebay都努力开发虚拟交易市场:他们尽可能地外包库存。然后,通过各种各样的方法,把买主和卖主吸引到同一件商品上,从交易中抽取利润。

对于Amazon来说,那意味着售卖新(商品)项目,或者允许众多用户卖出他们使用过的商品。对Ebay而言,它意味着把招标人和买主吸引在一起。一旦你被吸引进来, 这种途径是极其有利润的,它还是快速的,通过电话、电子邮件和数据库管理。这很有效。

再来看看Google。在2002 年以前, 它是一个搜索引擎,依靠其广告盈利。与此同时, 自1998年以来,“语义网”的理念获得了少数人的关注,并吸引了与日俱增的这个圈子的人们。

什么是语义网呢? 在其心脏部分, 这仅仅是一个以计算机能理解的方法来描述事物的;当然,它并不理解这是怎么一回事,而是逻辑,就象在高中学的:

如果A是B的朋友, 那么B就是A的朋友。
吉姆有一个朋友叫保罗。
所以,保罗有一个朋友叫吉姆。

使用的标记语言叫做RDF (在这儿是首字母的缩略, 因此你不妨学会它——它代表资源描述框架规范Resource Description Framework), 你可以把这样的逻辑语句放到互联网上,“网络爬虫”就能收集它们,并且语句能被搜索、分析、处理。它与正常搜索不同之处是, 语句可能被结合起来。所以,如果我在吉姆的站点上看到一句话“吉姆是保罗的朋友”,这时有人搜索了“保罗的朋友们”,即使保罗的网站没有提到吉姆, 我们也会得知吉姆认为自己是保罗的朋友。

我们肯定也想知道其它的事情?比如A和B都是汽车卖主,但A卖的Miatas车比B要便宜百分之十。比如Jan Hammer 70 年代在Mahavishnu Orchestra专辑中使用的keyboards乐器。比如狗有爪子。比如你要求一台特殊型号的电脑,拥有新的主板和更快的总线,可以被升级到奔腾18。语义万维网不是关于页面和链接的, 它是考虑事物之间联系的——是否一件事是另一件事的一部分, 或者东西多少钱, 或什么时候发生。

语义网最初只是作为Web缺乏“聪明”的补充——并且许多早期工作就像是安排日程和计划, 和表述人与人之间的关系。在2003年末以前, 当Google 开始在语义网开发上作了一系列实验的时候 (二年以后进入了他们的研究实验室),这仍然几乎是没有人了解,并且很少人经常使用的东西, 除了在逻辑、计算机科学、人工智能方面有基础知识的研究员。科研曲线象峭壁一样陡, 并且对于编程人员来说,并没有足够的刺激来值得攀登它,也没有从新的优势中来研究世界的吸引力。

未来被描述的语义网,会使你更加容易预定牙医的时间, 更新你的计算机, 检查培训计划, 和协调汽车零件的发货(时间)。它会使寻找东西更加容易。或许包括所有巨大的东西,巨大到以百万美元起价。但不敢肯定对习惯于写支票的人是否有足够的诱惑, 特别是在他们经历了95次的.com破产之后。他们看见的所有都是Web——(使他们损失了)几个口袋和几百万的金钱——只不过有个“语义”在它前面修饰罢了。

Semantics vs. Syntax, Fight at 9

一件事物的语义与它的意义相关。它是一个很是模糊的东西,但是在人工智能的世界里,这个目标将会是从句法中得出语义。至关重要的问题在于,如果你有一大堆东西整齐的按照句法规则排列成能为计算机所识别的结构,你又怎么能从中得到意义呢?句法学如何成为语义学?人脑对此非常在行,但是对于计算机来说则是困难异常。他们对于句法感到头疼。只要你用结构化的表达方式,就可以告诉他们任何事情,但是他们却无法得到意义。他们会将“身有余而心不足”这句话翻译成“肉里面充满了星星但是伏特加酒是用粉红色的羽毛做成”,像俄语一样。

所以人们猜想,只有从句法合理的语句中才能得到真正令人感兴趣的东西。实际上,你需要的是一个价值连城的脑袋。现在没有人能证明这种方式的有效,而它的倡导者则是CYC公司的一个名叫Doug Lenat的人,他早就上了Ashcroft主席的黑名单,被视为一个危险的知识分子,已经好久没有他的影子了。但是这些关于语义网的基本却令人深思的概念,直到现在仍然有着影响,即通过从多个人那里同时获得句法,进而在他们的集合中获得意义。

正如你所知道的,电脑仍然在听我们的话。但是当语义网技术成熟发展起来以后,这些中心化的数据库——例如Amazon和Ebay,他们都是有着众多子条目的中心化数据库–将会散落到网络的每一处。每个人都将会有自己的那一份数据库,他们自己的迷宫。发布这些数据很容易,但是问题在于如何将他们聚合在一起。即使对于一些程序员来说,创建一份RDF文件也是很困难的。

这些都将会逐渐的改变,到了2004年的,Google将会有三种服务:Google市场搜索,Google个人代理和Google认证经理,以及一个软件:Google市场经理。

Google的市场交易搜索

市场搜索位于Google语义搜索特征的最重要的部分,而且差不多每一个浏览它的人至少会使用一次。你仅仅需要简单地键入:

出售:“马丁”牌吉他

来看看想买马丁牌吉他的人的名单

购买:“马丁”牌吉他

这是用来察看卖方的名单。

Google要求并且记得:你的邮编、按照价格组织的吉他名单中使用简单的排序控制、状态、型号、新的还是用过的,以及接近(的价格)。页面是由Google的“传统”非语义Web搜寻工具产生的,考虑在Web上长期最佳的匹配,并链接到马丁型号和买者向导的信息,以及Google用户新闻组的文章。还会链接到Epinions这样的站点以弥补纰漏。

因此Google 市场搜索在哪里得到信息呢?Google是以相同的方式找到它所需要的信息的——通过爬遍它找到的所有网络和索引。而现在,它正寻找RDDL文件,它会指向RDF 文件,包含这样的逻辑语句:

(Scott Rahin)住址的邮政编码 (11231)
(Scott Rahin)电子邮箱地址(ford@ftrain.com)
(Scott Rahin)拥有(马丁吉他)
[Scott的](马丁吉他)型号是(245)。
[Scott的](马丁吉他)可以在(http://ftrain.com/picture/martin.jpg)这里看见
[Scott的](马丁吉他)价值(900美元)
[Scott的](马丁吉他)状况(良好)
[Scott的](马丁吉他)可以被描述成“保存得很好,并且很少玩(伤心啊!)。美妙,圆润的声音和一套多余的吉他弦。我很高兴能向顺便拜访的人展示它,或者在纽约市内的任何地方交付它”。

理解上面语句最重要的部分不只是在方括号和圆括号之间,而是指针。(Scott Rahin)是指向http://ftrain.com/people/Scott的一个指针。(马丁牌原声吉他)是指向URL的指针,它会反向参考包含其他逻辑语句的专业知识数据库,像这样:

(马丁吉他)是一把(原声吉他)。
(原声吉他)是一把(吉他)。
(吉他)是一种(乐器)。

这意味着如果有人想搜索吉他,或者原声吉他,所有的“马丁吉他”能被纳入搜寻范围中。并且那表明Scott可以说他有“马丁”或“马丁吉他”,然后计算机为他计算出其余的部分。

实际上,我刚刚对你说了谎——它确切来说不是按照那种方式运行的,并且使用指针时会产生许多歧义,并且甚至动词短语也可能是指针,但是总比涌现出很多术语要好(诸如:namespaces, URIs, prefixes, serialization, PURLs……)。我们将略过那个部分,仅仅关注必要的事实:在语义网中的一切描述都是有URL的(或者URI之类)。真正的意思是说RDF是关于网络数据的数据(或者叫元数据)。有时RDF会描述其他的RDF。因此你看到了怎样使用全部语法的陈述,并且希望建造能自己思考的语义网吗?综合象那样的陈述?是吗?现在真的跟上(我的思路)了?是的,没有人做这个。

因此Google 使用爬过RDF并建立索引的方法把每个人都联系在一起。当然,连结匿名的买主与卖主是不够的。还需要是有信誉评估。输入“网络信誉评估和等级框架”,会显示各种各样的信誉评估框架,但是最后这个会被W3C认证(在麻省理工学院和ECMA的核事故之前),它现在是标准。他怎样运行呢?像这样:

在Kara Dobbs的站点上,我们找到这样的叙述:
[Kara Dobbs]说(Scott Rahin)是(可信任的)。
在James Drevin的站点上,我们找到这样的陈述:
[James Drevin]说(Scott Rahin)是(可信任的)。

等等。很好——但是你怎样知道如何首先相信别人?
跟着我的思路:

在花旗银行的站点上:
[花旗银行]说(Scott Rahin)是(可信任的)。
在万事达卡的站点上:
[万事达卡]说(Scott Rahin)是(可信任的)。
然后在Google里面:
[Google信誉评估服务]说(Scott Rahin)是(可信任的)。
并且如果
[花旗银行 ]说(Kara Dobbs等人)都是(可信任的)。

然后你开始看出来它们全都是一致的,哪怕别人有一丁点的不诚实,你都会知道,实际上这种感觉很好。现在,如果关于信誉评估、真实的状况、人类行为种种问题上升到10亿个,我们不必需要查看30万亿个页面,只相信它现在起作用就可以了。并且这一类的许多其他材料就像这样子:

[美国社会保险管理机构]说(Pete Jefferson)在(1992)年出生。

这表明Pete Jefferson能从因特网中下载成人的录像和视频游戏,因为他19岁了并且有一个社会安全号码。无论如何,不能给未成年人授予安全号码。并且不能忽视市民们通过自由分支的表述:

[Sherriff,来自德克萨斯的达拉斯]说(Martin Chalbarinstik)是一个(性侵犯惯犯)。
[Sherriff,来自德克萨斯的达拉斯]说(Dave Trebuchet)有一个(退回支票)。
[美国,绿党]说(Susan Petershaw)是一名(成员)。

数据库具有很强大的能力,它们集合的数据非常之多,它们还能关涉隐私,但是不允许作者利用冷酷的机器通过毫无根据的描述,来破坏我们的公民自由权,让我们继续前行。

无论如何,当你考虑它的时候,你看出Google为什么总能很自然地把它们集合到一起。Google已经搜索了整个网络。Google已经有数千台独立的机器构成一种分布框架。Google已经在页面中找到了链接,这是建造它的索引的方式。 Google的搜索引擎用数百万个变量解决方程式。在RDF里语义的网络内容,正是另一个搜索问题,另一套方程式而已。主要的问题在于首先得到信息;想出用它做什么;从所有的工作中赢利;并且保持它被更新……

Google 市场经理

嗯,首先你需要信息。不过要人们仅仅在一台服务器上找到它,就好比一场混乱——因此让我们看看“Google市场经理”,一个为Windows、Unix和Macintosh设计的小软件。市场经理,或者简称MM,看起来象一张有规律的电子表格,允许你列举关于自己的信息,你想要出售的东西,你想要买的东西……它基本上是一名“逻辑语句的编辑”,只不过伪装成一张电子表格而已。人们输入他们的名字,地址和其它关于他们自己的信息,然后,他们输入正出售的东西,MM就会保存成RDF 格式文件,传递给他们选择的服务器 ——并且把一个“连接测试程序(ping)”告诉Google,从而不断改进他们的索引。

当它被开发出来的时候,MM真具有魔法般的魅力。假如你想出售一本书。在分类中你输入“书”,MM就会查询开放产品分类法,然后返回询问你,它是否是一本精装书、平装书、用过的、新的、收集的等等。开放产品分类法本质上是一个结构化辞典,并且它将迅速成为描述出售产品的绝对标准。

然后你把书背面ISBN 号码输入进去,确认一下,MM就会自动返回填写作者、版权、页数和简介——它只用RDF查询了一下服务器,获得它,计算它,返回给你。 如果你是一个小的出版社,你可以列举你的目录。如果你有《愤怒的葡萄》的第一版,你可以描述它并且给一个最低的可接受价格,它将在Google拍卖分类中出现。当Google 解释被输入的描述、大概符合电子表格中的东西时,MM的多数小巧的功能实际在那些服务器上。如果你输入汽车,它会询问你颜色。 如果你输入酒,它会询问葡萄收获期、葡萄园位置、多少瓶酒。然后,当某人寻找1998的Merlot酒时,你的葡萄酒信息就会列在目录顶端。

你也能通过MM为高额时段或者大宗项目购买广告,并且能跟踪这些广告的投放情况;它在漂亮的桌面上被全部升级和更新。你也能在网络上随时察看同步数据,但是使用MM是美好、快速、最优的。 当你买东西时,它在你的“购买”栏里列举项目,通过购买商品的类型来排列,这样很容易打印出账目,并为你和那好地记录下来。

因此,就像我们说过的,Google允许你寻找买方与卖方,然后,使用一种“厚脸皮”的服务从无所不在的贝宝复制过来,交易的费用是1.75%。当然,人们能通过寄支票或者当面交付的方式避免1.75%的费用,但是对大多数交易来说,使用迅速而便宜的服务很不错——1.75%费用加上投递广告和能到达全球的范围,并且你能通过账户平稳地流动数百万美元。

Amazon和Ebay,还记得它们吗?无疑地看到了这项新产品并且意识到了他们所处的困境。为了去和Google竞争,他们必须“开创自己的商业模式”——把他们的数据库交给不可理喻的网络。因此,在“最优秀公司风格”的掩饰下,他们两面下注并且什么也没做。

尽管他们很低调,但不久之后各种各样的服务竞相出现,就像Google一样搜索了相同的数据,提供更便宜的交易价格。但是Google有品牌、信任和利润。

超过100万的个人在2年内接受并且开始使用新的服务——基于语义网购物。在这2年时间,Google大约有3亿美元的资金流动——其中交易的净额达450万美元。但是,就像Ebay和Amazon曾经强迫消费者把生意带到网络上面来,口头传播开始发挥它的魔力。自从寻找想购买的东西变得容易了,并且MM也很容易下载和运行,到2006年访问Google市场交易的人数增长到1000万。

Google个人代理

现在,搜索已经不能满足人们的需求了,还需要服务。你需要计算机帮助你。因此Google也开发出个人代理——本质上,它是一个经常查询Google的小软件,当它发现你正在语义网上寻找什么时,就会寄给你电子邮件。

想知道哪个服务的电话资费更便宜?问问google代理吧。想知道Wholand主题公园什么时候会在伦敦以外开放?问问google代理吧。或者你的妻子什么时候更新她网络上的日程,或者MSFT的价格什么时候会上升到3 美元,或者加纳的政治局势什么时候会触到火线。你甚至能编程序让它为你谈判——如果它发现一本首版完好的《Paterson》在2000美元以下,它会先出价低于询问价500美元,然后从那儿往上一点点提价。在你和卖方之间是匿名的,如果你有正确的帐号它甚至是免费的,没有人从中勒索。反而,不使用它买东西会被认为落伍了。就像普通Google搜索与语义网命题逻辑的协商,个人代理也做同样的事情——根据预先确定的规则,它每隔几分钟就以独特的方式这样做。

Google认证服务

最后,Google意识到他们能通过提供认证和分等级服务,来实现“真实的网络”的想法,回答一张调查表需要每年15美元,其中有你的信用调查,还要填入一些银行账户信息。但是人们会注册它,因为Google就是市场;赞成Google的更甚于对政府的信任。

你的点对点“陪审团”

因为全部信息都以RDF形式存在,Google自己的策略会考虑利用它。Google市场经理的免费克隆版本开始出现,其他搜索引擎开始连1.75%的手续费都削减了,努力找到其他的收入模式。点对点模式一直是MP3和OGG格式的最爱,回到包括实时销售数据集合中,传遍成千上万台志愿者的机器——Google也使用相同的模式,却是个人分布式的模式。Amazon和Ebay开始在站点上自动包括已收集的RDF数据,削减了一切花费,使它与现有拍卖和待卖物品相结合。

在2006年,花旗银行Drop Box账户开户费从100美元/月,然后30 美元,然后15 美元,一路下降到5美元/月。Drop Box账户由唯一号码认证,并且只能得到存款(后来能转移到其他账户和存钱了)。它们甚至有URL地址,并且使用金融转移协议。轻轻一点你的浏览器到account://382882-2838292-29-1939,然后输入你想要存的钱数。只要不遗失drop box号码就不会有风险,而且不用花手续费。银行在联邦监督契约帐户里保存了存钱的信息。任何人能公开他们的银行帐号,根本不用中间人就能出售他们的东西了。

就象音乐公司以前一样感受到了压力,他们的目光转向了点对点市场,Google把费用下降到1%,允许MM用户使用Drop Box账户,并且对MM软件和服务的购买者每年收取25美元,而对使用者仍然免费。在紧张的几个月过去之后,Google发现多数用户出售的东西超过十个,他们很高兴买这品牌的产品;但点对点网络被认为不那么值得信任,人们认为它是与Google广告相联系的。Google也意识到他们也能提供Drop Box账户,并且把它们捆绑在股票和金融市场商业账户上,它使得我们跨过了复杂而未获解决的问题。如果你对此感兴趣,就去读读Tom Rawley的《The Dragon in the Chicken Coop》吧。

Google的金融服务当然能自动被插入你的MM股票交易中;现在它们正已25000倍的收入做生意,预示着“新新新新经济”消息的来临。你在这儿得不到这样的预示;当他们一旦把它做成了,竞争将是残酷的。Google在过去不到十年的时间里是梦幻公司,但是他们最终会减慢速度,这正是完成他们的哲学博士论文的时候。并且我确信他们会这样的。

一个恐怖的语义化未来?

未来语义网的文化将很难处理。隐私是被密切关心的,但是保留太多的隐私却无益。记得那些分类法吗?嗯,一群人在开曼群岛之外研制一种“魔鬼分类法”——一种特殊牌子游艇的内部零件的辞典目录,但是除了在纸上,实际上建立游艇的公司从未存在过。他们其实是武器和药品走私组织。当某人说”装配”时,意思是大火力的自动步枪。厚帆布是可卡因。一台发动机是武器级别的钚的别称。

因此,你在与一位妄自尊大的非洲共和国领导人在革命期间会面时,你雇用了一名移居国外的俄罗斯科学家,你的银行账户内有贩卖海洛因得来的60亿利润,并且你需要买一些武器级别的钚。谁来为你做这事儿?Google 个人代理,表面上你只不过为游艇买了一台新发动机而已(虽然1800万美元稍微有点贵)。如果你正通过“魔鬼分类法”出售铝制咖啡壶——或者应该叫做蛮纯的海洛因。你可能说,因此你弥补了这种差别。

突然作为犯罪策划者的最大的问题产生了——发现从没出卖你的那个卖方跑路了。由于那么多卖方,你甚至能讨价还价。出售钚就象出售马丁吉他那样顺利、简单、匿名。这难道不能发生吗?一些人说它能,并解释说Mandatory Metadata Review法案正在国会的审议议程中,全部RDF必须被引向公众分类法。就象那个人所说的,你可以生活在有趣的年代。这是谁说的?在Google上查查吧。

 

posted on 2005-12-17 20:36  Jacquette.wang  阅读(461)  评论(0编辑  收藏  举报

导航