摘要:2006年4月26日 上午 08:11:00 发表者:吴军,Google 研究员 前言: Google 一直以 "整合全球信息,让人人能获取,使人人能受益" 为使命。那么究竟每一条信息应该怎样度量呢? 信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了"信息熵"(shāng) ...
阅读全文
摘要:2006年4月17日 上午 08:01:00 发表者:吴军,Google 研究员 前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。 自 然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根...
阅读全文
摘要:2006年4月10日 上午 08:10:00 发表者: 吴军, Google 研究员 谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 ...
阅读全文
摘要:2006年4月3日 上午 08:15:00 发表者: 吴军, Google 研究员 前言 也 许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一 个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Goog...
阅读全文
摘要:From Wikisource 中文> GNU 大教堂和市集 -- Eric Raymond, HansB翻译 目录一. 大教堂和市集 二. 邮件必须得通过 2.1 1.每个好的软件工作都开始于搔到了开发者本人的痒处。 2.2 2.好程序员知道该写什么,伟大的程序员知道该重写(和重用)什么。 2.3 3.“计划好抛弃,无论如何,你会的”(Fred Brooks,《神秘的人月》第11章) 2.4 4...
阅读全文
摘要:转自Google Google 创始人之一 Larry Page 指出:“完美的搜索引擎需要做到确解用户之意,切返用户之需”。就搜索技术的现状而言,我们需要通过研究、开发和革新来实现长远的发展。Google 致力于成为这一技术领域的开拓者。尽管 Google 已是全球公认的业界领先的搜索技术公司,但其目标是为所有信息搜寻者提供更高标准的服务,无论用户是坐在波士顿的台式机旁,还是正在驾车...
阅读全文
摘要:此文为转载,有少许修订,原文出处不详。 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节"。 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。 开始计算机只在美国用。八位的字...
阅读全文