会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
KK的技术人生
技术改变世界
博客园
首页
新随笔
管理
公告
上一页
1
2
3
4
5
6
7
8
···
10
下一页
2009年2月1日
数学之美系列二十 -- 自然语言处理的教父 马库斯
摘要: 2007年4月13日 下午 07:03:00 发表者:Google 研究员,吴军 我 们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米 奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的论文并不多,但是从...
阅读全文
posted @ 2009-02-01 03:25 KK2038
阅读(2288)
评论(0)
推荐(0)
编辑
数学之美系列二十一 - 布隆过滤器(Bloom Filter)
摘要: 2007年7月3日 上午 09:35:00 发表者:Google(谷歌)研究员 吴军 在 日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它 是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算...
阅读全文
posted @ 2009-02-01 03:25 KK2038
阅读(14564)
评论(0)
推荐(5)
编辑
数学之美系列二十三 -- 谈谈香农第一定律
摘要: 2007年12月3日 上午 10:05:00发表者:Google(谷歌)研究员 吴军 今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。我 们假定常用的汉字在二级国标里面,一共有 6700 个作用的汉字。如果不考虑汉字频率的分布,用键盘上的 26 个字母对汉字编码,两个字母的组合只能对 676 ...
阅读全文
posted @ 2009-02-01 03:25 KK2038
阅读(7574)
评论(1)
推荐(0)
编辑
数学之美系列二十四 -- 谈谈动态规划
摘要: 2008年10月14日 下午 08:34:00发表者:Google(谷歌)研究员 吴军 今 年九月二十三日,Google、T-Mobile 和 HTC 宣布了第一款基于开源操作系统 Android 的 3G 手机,其中一个重要的功能是利用全球卫星定位系统实现全球导航。这个功能在其它手机中早已使用,并且早在五六年前就已经有实现这一功能的车载设备出售。其 中的关键技术只有两个:第一是利用卫星定位;第二...
阅读全文
posted @ 2009-02-01 03:25 KK2038
阅读(3731)
评论(3)
推荐(0)
编辑
数学之美系列十七 -- 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
摘要: 2006年11月28日 上午 03:18:00 Google 研究员 吴军 自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。 搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列...
阅读全文
posted @ 2009-02-01 03:24 KK2038
阅读(2151)
评论(0)
推荐(0)
编辑
数学之美系列十八 -- 矩阵运算和文本处理中的分类问题
摘要: 2007年1月1日 下午 03:10:00 发表者:Google 研究员,吴军 我 在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在 数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到 后来长期做自然...
阅读全文
posted @ 2009-02-01 03:24 KK2038
阅读(2222)
评论(0)
推荐(0)
编辑
数学之美系列十九 -- 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
摘要: 2007年1月28日 下午 09:53:00 发表者:Google 研究员,吴军 我们在前面的系列中多次提到马尔可夫链 (Markov Chain), 它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互的关系并不能用 一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。比如在下图中可以看到,心血管疾...
阅读全文
posted @ 2009-02-01 03:24 KK2038
阅读(5426)
评论(0)
推荐(0)
编辑
数学之美系列十五 -- 繁与简 自然语言处理的几位精英
摘要: 2006年8月23日 下午 11:22:00 发表者:吴军,Google 研究员 我 在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说 完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Col...
阅读全文
posted @ 2009-02-01 03:24 KK2038
阅读(2689)
评论(0)
推荐(1)
编辑
数学之美系列十四 -- 谈谈数学模型的重要性
摘要: 2006年8月9日 上午 09:12:00 发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。] 在 包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天...
阅读全文
posted @ 2009-02-01 03:24 KK2038
阅读(2342)
评论(0)
推荐(1)
编辑
数学之美系列十六 -- 谈谈最大熵模型
摘要: 发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。] 前
阅读全文
posted @ 2009-02-01 03:24 KK2038
阅读(38304)
评论(2)
推荐(2)
编辑
上一页
1
2
3
4
5
6
7
8
···
10
下一页