2009 年 2月 1 日随笔档案 - KK2038

数学之美系列

摘要：转自Google中国博客数学之美系列一 -- 统计语言模型数学之美系列二 -- 谈谈中文分词数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用数学之美系列四 -- 怎样度量信息? 数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) 数学之美系列七 -- 信息论在信息处理中的应用数学之美系列八-- 贾里尼克的故... 阅读全文

posted @ 2009-02-01 03:40 KK2038 阅读(3432) 评论(1) 推荐(3) 编辑

数学之美系列二十二 -- 谈谈密码学的数学原理

摘要： 2007年12月3日上午 10:05:00发表者：Google（谷歌）研究员吴军前一阵子看了电视剧《暗算》，蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学，故事本身不错，但是有点故弄玄虚。不过有一点是对的，就是当今的密码学是以数学为基础的。（没有看过暗算的读者可以看一下介绍，http://ent.sina.com.cn/v/2005-10-17/ba866985.shtml 因为我们... 阅读全文

posted @ 2009-02-01 03:29 KK2038 阅读(5710) 评论(0) 推荐(2) 编辑

数学之美系列二十四 -- 谈谈动态规划

摘要： 2008年10月14日下午 08:34:00发表者：Google（谷歌）研究员吴军今年九月二十三日，Google、T-Mobile 和 HTC 宣布了第一款基于开源操作系统 Android 的 3G 手机，其中一个重要的功能是利用全球卫星定位系统实现全球导航。这个功能在其它手机中早已使用，并且早在五六年前就已经有实现这一功能的车载设备出售。其中的关键技术只有两个：第一是利用卫星定位；第二... 阅读全文

posted @ 2009-02-01 03:25 KK2038 阅读(3731) 评论(3) 推荐(0) 编辑

数学之美系列二十三 -- 谈谈香农第一定律

摘要： 2007年12月3日上午 10:05:00发表者：Google（谷歌）研究员吴军今天各种汉字输入法已经很成熟了，随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法，从理论上分析一下，输入汉字到底能有多快。我们假定常用的汉字在二级国标里面，一共有 6700 个作用的汉字。如果不考虑汉字频率的分布，用键盘上的 26 个字母对汉字编码，两个字母的组合只能对 676 ... 阅读全文

posted @ 2009-02-01 03:25 KK2038 阅读(7575) 评论(1) 推荐(0) 编辑

数学之美系列二十一－布隆过滤器（Bloom Filter）

摘要： 2007年7月3日上午 09:35:00 发表者：Google（谷歌）研究员吴军在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算... 阅读全文

posted @ 2009-02-01 03:25 KK2038 阅读(14564) 评论(0) 推荐(5) 编辑

数学之美系列二十 -- 自然语言处理的教父马库斯

摘要： 2007年4月13日下午 07:03:00 发表者：Google 研究员，吴军我们在前面的系列中介绍和提到了一些年轻有为的科学家，迈克尔·柯林斯，艾里克·布莱尔，大卫·雅让斯基，拉纳帕提等等，他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的，弟子都成了各派的掌门，师傅一定了不得。的确，马库斯虽然作为第一作者发表的论文并不多，但是从... 阅读全文

posted @ 2009-02-01 03:25 KK2038 阅读(2288) 评论(0) 推荐(0) 编辑

数学之美系列十八 -- 矩阵运算和文本处理中的分类问题

摘要： 2007年1月1日下午 03:10:00 发表者：Google 研究员，吴军我在大学学习线性代数时，实在想不出它除了告诉我们如何解线性方程外，还能有什么别的用途。关于矩阵的许多概念，比如特征值等等，更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法，还是看不到可以应用的地方。当时选这些课，完全是为了混学分的学位。我想，很多同学都多多少少有过类似的经历。直到后来长期做自然... 阅读全文

posted @ 2009-02-01 03:24 KK2038 阅读(2222) 评论(0) 推荐(0) 编辑

数学之美系列十七 -- 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

摘要： 2006年11月28日上午 03:18:00 Google 研究员吴军自从有了搜索引擎，就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的，用句俗话说，闪光的不一定是金子。搜索引擎的作弊，虽然方法很多，目的只有一个，就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站，重复地罗列... 阅读全文

posted @ 2009-02-01 03:24 KK2038 阅读(2151) 评论(0) 推荐(0) 编辑

数学之美系列十五 -- 繁与简自然语言处理的几位精英

摘要： 2006年8月23日下午 11:22:00 发表者：吴军，Google 研究员我在数学之美系列中一直强调的一个好方法就是简单。但是，事实上，自然语言处理中也有一些特例，比如有些学者将一个问题研究到极致，执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值，因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Col... 阅读全文

posted @ 2009-02-01 03:24 KK2038 阅读(2689) 评论(0) 推荐(1) 编辑

数学之美系列十四 -- 谈谈数学模型的重要性

摘要： 2006年8月9日上午 09:12:00 发表者：吴军，Google 研究员 [注：一直关注数学之美系列的读者可能已经发现，我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性，今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题，下面的内容是我讲座的摘要。］在包括哥白尼、伽利略和牛顿在内的所有天文学家中，我最佩服的是地心说的提出者托勒密。虽然天... 阅读全文

posted @ 2009-02-01 03:24 KK2038 阅读(2342) 评论(0) 推荐(1) 编辑

数学之美系列十六 -- 谈谈最大熵模型

摘要：发表者：Google 研究员，吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目，但是把它讲清楚要用两个系列的篇幅。] 前阅读全文

posted @ 2009-02-01 03:24 KK2038 阅读(38304) 评论(2) 推荐(2) 编辑

数学之美系列十九 -- 马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)

摘要： 2007年1月28日下午 09:53:00 发表者：Google 研究员，吴军我们在前面的系列中多次提到马尔可夫链 (Markov Chain)，它描述了一种状态序列，其每个状态值取决于前面有限个状态。这种模型，对很多实际问题来讲是一种很粗略的简化。在现实生活中，很多事物相互的关系并不能用一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。比如在下图中可以看到，心血管疾... 阅读全文

posted @ 2009-02-01 03:24 KK2038 阅读(5426) 评论(0) 推荐(0) 编辑

数学之美系列十一 -- Google 阿卡 47 的制造者阿米特.辛格博士

摘要： 2006年7月10日上午 09:52:00 发表者：Google 研究员，吴军枪迷或者看过尼古拉斯.凯奇（Nicolas Cage)主演的电影"战争之王"（Lord of War)的人也许还记得影片开头的一段话：（在所有轻武器中，）最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型），因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1747) 评论(0) 推荐(0) 编辑

数学之美系列十三 -- 信息指纹及其应用

摘要： 2006年8月3日上午 11:17:00 发表者：吴军，Google 研究员任何一段信息文字，都可以对应一个不太长的随机数，作为区别它和其它信息的指纹（Fingerprint)。只要算法设计的好，任何两段信息的指纹都很难重复，就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到，为了防止重复下载同一个网页，我们需要在哈希表... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1915) 评论(0) 推荐(0) 编辑

数学之美系列八-- 贾里尼克的故事和现代语言处理

摘要： 2006年6月8日上午 09:15:00 发表者：Google 研究员，吴军读者也许注意到了，我们在前面的系列中多次提到了贾里尼克这个名字。事实上，现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里，介绍贾里尼克本人。在这里我不想列举他的贡献，而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的，要么是他亲口对我讲的。弗莱德... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1613) 评论(0) 推荐(0) 编辑

数学之美系列九 -- 如何确定网页和查询的相关性

摘要： 2006年6月27日上午 09:53:00 发表者：吴军，Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面，一个有一定编程基础的读者应该可以写一个简单的搜索引擎了，比如为您所在的学校或院系建立一个小的搜索引擎。] 我们还是看上回的例子，查找关于"原子能的... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1644) 评论(0) 推荐(0) 编辑

数学之美系列十 -- 有限状态机和地址识别

摘要： 2006年7月5日上午 09:09:00 发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(2798) 评论(0) 推荐(1) 编辑

数学之美系列七 -- 信息论在信息处理中的应用

摘要： 2006年5月25日上午 07:56:00 发表者：吴军, Google 研究员我们已经介绍了信息熵，它是信息论的基础，我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时，没有讲如何定量地衡量一个语言模型的好坏，当然，读者会很自然地想到，既然语言模型能减少语音识别和机器翻译的错误，那么就拿一个语音识别系统或者机器翻译软... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(2527) 评论(0) 推荐(1) 编辑

数学之美系列十二 -- 余弦定理和新闻的分类

摘要： 2006年7月20日上午 10:12:00 发表者：吴军，Google 研究员余弦定理和新闻的分类似乎是两件八杆子打不着的事，但是它们确有紧密的联系。具体说，新闻的分类很大程度上依靠余弦定理。 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻，它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(4668) 评论(0) 推荐(2) 编辑

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

摘要： 2006年5月15日上午 07:15:00 发表者: 吴军，Google 研究员 [离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句，我们用 Google Trends 来搜索一下"离散... 阅读全文

posted @ 2009-02-01 03:23 KK2038 阅读(1968) 评论(1) 推荐(2) 编辑

KK的技术人生

公告