KK的技术人生

技术改变世界

2009年2月1日

数学之美系列十 -- 有限状态机和地址识别

摘要: 2006年7月5日 上午 09:09:00 发表者:吴军,Google 研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。 一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。 每 一个有限状态机都有一个启始状态和... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(2798) 评论(0) 推荐(1) 编辑
数学之美系列九 -- 如何确定网页和查询的相关性

摘要: 2006年6月27日 上午 09:53:00 发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。] 我们还是看上回的例子,查找关于"原子能的... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1644) 评论(0) 推荐(0) 编辑
数学之美系列八-- 贾里尼克的故事和现代语言处理

摘要: 2006年6月8日 上午 09:15:00 发表者:Google 研究员,吴军 读 者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的 系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。 弗 莱德... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1613) 评论(0) 推荐(0) 编辑
数学之美系列七 -- 信息论在信息处理中的应用

摘要: 2006年5月25日 上午 07:56:00 发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。 先看看信息熵和语言模型的关系。我们在系列一中 谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识 别系统或者机器翻译软... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(2527) 评论(0) 推荐(1) 编辑
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

摘要: 2006年5月15日 上午 07:15:00 发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜索一下"离散... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1968) 评论(1) 推荐(2) 编辑
数学之美系列十三 -- 信息指纹及其应用

摘要: 2006年8月3日 上午 11:17:00 发表者:吴军,Google 研究员 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。 我们在图论和网络爬虫一 文中提到,为了防止重复下载同一个网页,我们需要在哈希表... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1915) 评论(0) 推荐(0) 编辑
数学之美系列十二 -- 余弦定理和新闻的分类

摘要: 2006年7月20日 上午 10:12:00 发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(4668) 评论(0) 推荐(2) 编辑
数学之美系列十一 -- Google 阿卡 47 的制造者阿米特.辛格博士

摘要: 2006年7月10日 上午 09:52:00 发表者:Google 研究员,吴军 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影"战争之王"(Lord of War)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1747) 评论(0) 推荐(0) 编辑
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引

摘要: 2006年5月10日 上午 09:10:00 发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。] 世界上... 阅读全文

posted @ 2009-02-01 03:22 KK2038 阅读(1994) 评论(0) 推荐(0) 编辑
数学之美系列四 -- 怎样度量信息?

摘要: 2006年4月26日 上午 08:11:00 发表者:吴军,Google 研究员 前言: Google 一直以 "整合全球信息,让人人能获取,使人人能受益" 为使命。那么究竟每一条信息应该怎样度量呢? 信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了"信息熵"(shāng) ... 阅读全文

posted @ 2009-02-01 03:22 KK2038 阅读(2057) 评论(0) 推荐(0) 编辑