2007 年 6月随笔档案 - Java天堂

软件开发同行请注意

摘要：软件开发同行请注意::新的一年要有新的目标,为提高全体开发人的生活水平,为充分显示开发人的生存价值,逐步过上正常人的作息时间.请一起提高制作费用!特别是做管理软件的,报价应该2000-10000元.给别人打工的设计者,月工资要求涨到4000-8000元.现物价都上涨,就是开发费用严重滑坡,形成了搞开发的不如街上扫地的(人家都有社保,保险的).请大家不要恶意压价竞争,这样迟早都把自己饿死或改行.要像中国的房地产开发商一样,把房价提的高高的,也不怕没人来买房.请大家一定要团结,把这行的制作价格抬起来,最终都是为了自己,为了理想!!!!不要为了眼前短期利益损害了自己的长期利益，IT人应该得到自己应有阅读全文

posted @ 2007-06-12 21:30 Java天堂阅读(110) 评论(0) 推荐(0) 编辑

数学之美系列18（转帖）

摘要：数学之美系列十七闪光的不一定是金子谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)2006年11月28日上午 03:18:00Google 研究员吴军自从有了搜索引擎，就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的，用句俗话说，闪光的不一定是金子。搜索引擎的作弊，虽然方法很多，目的只有一个，就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站，重复地罗列各种数码相机的品牌，如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词，聪明一点的作弊者常用很小的字体和阅读全文

posted @ 2007-06-11 19:45 Java天堂阅读(128) 评论(0) 推荐(0) 编辑

数学之美---计算机图形学算法（转贴）

摘要：“假如我要打算学习计算机图形学的话我应该学习那些数学科目？”这大概是关于计算机图形学的问题里面学生最经常问我的一个问题，这个问题的答案取决于你打算研究计算机图形学有多深入。如果你打算仅仅使用现成的图形软件那么这个问题的答案大概就是你根本不需要懂太多的数学。假如你要学习一些入门的计算机图形学，那么我建议你首先学习代数学，三角和线性代数。如果你希望有一天成为一个计算机图形学方面的研究者，那么你一辈子都得不间断地学习数学直到你翘辫子。如果你不太关心数学，那么还有机会在这个领域里工作吗？有，计算机图形中的少数几个领域不需要太多的数学思想。你不应该放弃计算机图形学仅仅因为你不是数学巫师。无论如何，如果你阅读全文

posted @ 2007-06-11 19:44 Java天堂阅读(488) 评论(0) 推荐(0) 编辑

数学之美系列16（转帖）

摘要：数学之美系列十六（上）不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型2006年10月8日上午 07:27:00发表者：Google 研究员，吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目，但是把它讲清楚要用两个系列的篇幅。]前段时间，Google 中国研究院的刘骏总监谈到在网络搜索排名中，用到的信息有上百种。更普遍地讲，在自然语言处理中，我们常常知道各种各样的但是又不完全确定的信息，我们需要用一个统一的阅读全文

posted @ 2007-06-11 19:42 Java天堂阅读(191) 评论(0) 推荐(0) 编辑

数学之美系列17（转帖）

摘要：数学之美系列十六（下）－不要把所有的鸡蛋放在一个篮子里　最大熵模型2006年11月16日上午 06:50:00发表者：Google 研究员，吴军我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答，就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式，现在只需要确定指数函数的参数就可以了，这个过程称为模型的训练。最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(generalized iterative scaling) 的迭代算法。GIS 的原理并不复杂，大致可以概括为以下几个步骤：1. 假定第零次迭代的初始模型为等概率的均匀分布。2 阅读全文

posted @ 2007-06-11 19:42 Java天堂阅读(268) 评论(0) 推荐(0) 编辑

数学之美系列15（转帖）

摘要：数学之美系列十五繁与简自然语言处理的几位精英2006年8月23日下午 11:22:00发表者：吴军，Google 研究员我在数学之美系列中一直强调的一个好方法就是简单。但是，事实上，自然语言处理中也有一些特例，比如有些学者将一个问题研究到极致，执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值，因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Collins) 就是这样的人。柯林斯：追求完美柯林斯从师于自然语言处理大师马库斯 (Mitch Marcus)（我们以后还会多次提到马库斯），从宾夕法利亚大学阅读全文

posted @ 2007-06-11 19:41 Java天堂阅读(180) 评论(0) 推荐(0) 编辑

数学之美系列13（转帖）

摘要：数学之美系列十三信息指纹及其应用2006年8月3日上午 11:17:00发表者：吴军，Google 研究员任何一段信息文字，都可以对应一个不太长的随机数，作为区别它和其它信息的指纹（Fingerprint)。只要算法设计的好，任何两段信息的指纹都很难重复，就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到，为了防止重复下载同一个网页，我们需要在哈希表中纪录已经访问过的网址（URL)。但是在哈希表中以字符串的形式直接存储网址，既费内存空间，又浪费查找时间。现在的网址一般都较长，比如，如果在 Google 或者百度在查找数学之美，对应的网址阅读全文

posted @ 2007-06-11 19:40 Java天堂阅读(134) 评论(0) 推荐(0) 编辑

数学之美系列14（转帖）

摘要：数学之美十四谈谈数学模型的重要性2006年8月9日上午 09:12:00发表者：吴军，Google 研究员 [注：一直关注数学之美系列的读者可能已经发现，我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性，今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题，下面的内容是我讲座的摘要。］在包括哥白尼、伽利略和牛顿在内的所有天文学家中，我最佩服的是地心说的提出者托勒密。虽然天文学起源于古埃及，并且在古巴比伦时，人们就观测到了五大行星（金、木、水、火、土）运行的轨迹，以及行星在近日点运动比远日点快。（下图是在地球上看到的金星的轨迹，看过达芬奇密码的读者知道金星阅读全文

posted @ 2007-06-11 19:40 Java天堂阅读(179) 评论(0) 推荐(0) 编辑

数学之美系列11（转帖）

摘要：数学之美系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士2006年7月10日上午 09:52:00发表者：Google 研究员，吴军枪迷或者看过尼古拉斯.凯奇（Nicolas Cage)主演的电影“战争之王”（Lord ofWar)的人也许还记得影片开头的一段话：（在所有轻武器中，）最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型），因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我认为，在计算机中一个好的算法，应该向阿卡 47 冲锋枪那样简单、有效、可靠性好而且容易读懂(或者说易操作），而不应该是故弄玄虚。Googl 阅读全文

posted @ 2007-06-11 19:39 Java天堂阅读(144) 评论(0) 推荐(0) 编辑

数学之美系列12（转帖）

摘要：数学之美系列 12 - 余弦定理和新闻的分类2006年7月20日上午 10:12:00发表者：吴军，Google 研究员余弦定理和新闻的分类似乎是两件八杆子打不着的事，但是它们确有紧密的联系。具体说，新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻，它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点，我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字，或者说一个向量来描述一篇新闻。回忆一下我们在“如何度量网页相关性”一文中介绍的TF/IDF 的概念。对阅读全文

posted @ 2007-06-11 19:39 Java天堂阅读(150) 评论(0) 推荐(0) 编辑

数学之美系列9（转帖）

摘要：数学之美系列九 -- 如何确定网页和查询的相关性2006年6月27日上午 09:53:00发表者：吴军，Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面，一个有一定编程基础的读者应该可以写一个简单的搜索引擎了，比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子，查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页（详见关于布尔运算的系列）。现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面阅读全文

posted @ 2007-06-11 19:38 Java天堂阅读(136) 评论(0) 推荐(0) 编辑

数学之美系列10（转帖）

摘要：数学之美系列十有限状态机和地址识别2006年7月5日上午 09:09:00发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如，在上图中，当前的状态是“省”，如果遇到一个词组和（区）县名有关，我们就进入状态“区县”；如果遇到的下一个词组和城市有关，那么阅读全文

posted @ 2007-06-11 19:38 Java天堂阅读(153) 评论(0) 推荐(0) 编辑

数学之美系列8（转帖）

摘要：数学之美系列八-- 贾里尼克的故事和现代语言处理2006年6月8日上午 09:15:00发表者：Google 研究员，吴军读者也许注意到了，我们在前面的系列中多次提到了贾里尼克这个名字。事实上，现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里，介绍贾里尼克本人。在这里我不想列举他的贡献，而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的，要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。他的父母原本打算送他去英国的公学（私立学校）读书。为了教他德语，还专门请的一位德国的家庭女教师，但是第二次世阅读全文

posted @ 2007-06-11 19:37 Java天堂阅读(142) 评论(0) 推荐(0) 编辑

数学之美系列6（转帖）

摘要：数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日上午 07:15:00发表者: 吴军，Google 研究员 [离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句，我们用 Google Trends 来搜索一下“离散数学”这个词，可以发现不少有趣的现象。比如，武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣的城市。]我们上回谈到了如何建立搜索引擎的索引，那么如何自阅读全文

posted @ 2007-06-11 19:36 Java天堂阅读(128) 评论(0) 推荐(0) 编辑

数学之美系列7（转帖）

摘要：数学之美系列七 -- 信息论在信息处理中的应用2006年5月25日上午 07:56:00发表者：吴军, Google 研究员我们已经介绍了信息熵，它是信息论的基础，我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时，没有讲如何定量地衡量一个语言模型的好坏，当然，读者会很自然地想到，既然语言模型能减少语音识别和机器翻译的错误，那么就拿一个语音识别系统或者机器翻译软件来试试，好的语言模型必然导致错误率较低。这种想法是对的，而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲，既不直接、又不方便，而且很难从错误率反过阅读全文

posted @ 2007-06-11 19:36 Java天堂阅读(111) 评论(0) 推荐(0) 编辑

数学之美系列5（转帖）

摘要：数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引2006年5月10日上午 09:10:00发表者: 吴军，Google 研究员 [建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题，这里我们谈谈索引问题，以后我们还会谈如何度量网页的相关性，和进行网页自动下载。］世界上不可能有比二进制更简单的计数方法了，也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化，其实从根本上讲都没有逃出布尔运算的框框。布尔阅读全文

posted @ 2007-06-11 19:34 Java天堂阅读(134) 评论(0) 推荐(0) 编辑

数学之美系列4（转帖）

摘要：数学之美系列 4 -- 怎样度量信息?2006年4月26日上午 08:11:00发表者：吴军，Google 研究员前言: Google 一直以 “整合全球信息，让人人能获取，使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢？信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，香农提出了“信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，阅读全文

posted @ 2007-06-11 19:33 Java天堂阅读(168) 评论(0) 推荐(0) 编辑

数学之美系列3（转帖）

摘要：数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日上午 08:01:00发表者：吴军，Google 研究员前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统：其中阅读全文

posted @ 2007-06-11 19:31 Java天堂阅读(111) 评论(0) 推荐(0) 编辑

数学之美系列1

摘要：数学之美系列一 -- 统计语言模型2006年4月3日上午 08:15:00从本周开始，我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章，介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员前言也许大家不相信，数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时，总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地，介绍一些数学工具，以及我们是如何利用这些工具来开发 Google 产品的。系列一：统计语言模型 (Statistic 阅读全文

posted @ 2007-06-11 19:28 Java天堂阅读(199) 评论(0) 推荐(0) 编辑

数学之美系列二

摘要：数学之美系列二 -- 谈谈中文分词2006年4月10日上午 08:10:00发表者: 吴军， Google 研究员谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词：中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的，也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。用 “查字典” 法，其实就是我们把一个句子阅读全文

posted @ 2007-06-11 19:27 Java天堂阅读(174) 评论(0) 推荐(0) 编辑

Java天堂

06 2007 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论