Mark Hu - 博客园

Google 黑板报的数学之美系列。

摘要： Monday, 5. June 2006, 11:51:19 数学之美系列一 -- 统计语言模型发表者: 吴军, Google 研究员前言也许大家不相信，数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时，总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地，介绍一些数学工具，以及我们是如... 阅读全文

posted @ 2006-07-24 18:21 Mark Hu 阅读(478) 评论(0) 推荐(0) 编辑

谈谈中文分词（转自GOOGLE吴军）

摘要： Monday, 5. June 2006, 11:52:29 发表者: 吴军， Google 研究员谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词：中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与... 阅读全文

posted @ 2006-07-24 18:20 Mark Hu 阅读(755) 评论(0) 推荐(0) 编辑

隐含马尔可夫模型在语言处理中的应用

摘要：前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我们根据接收端收到的信号去分析、理解、还... 阅读全文

posted @ 2006-07-24 18:19 Mark Hu 阅读(311) 评论(0) 推荐(0) 编辑

怎样度量信息?

摘要：前言: Google 一直以 “整合全球信息，让人人能获取，使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢？信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，香农提出了“信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说，我们... 阅读全文

posted @ 2006-07-24 18:18 Mark Hu 阅读(1660) 评论(3) 推荐(0) 编辑

简单之美：布尔代数和搜索引擎的索引

摘要： [建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题，这里我们谈谈索引问题，以后我们还会谈如何度量网页的相关性，和进行网页自动下载。］世界上不可能有比二进制更简单的计数方法了，也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何... 阅读全文

posted @ 2006-07-24 18:17 Mark Hu 阅读(221) 评论(0) 推荐(0) 编辑

图论和网络爬虫 (Web Crawlers)

摘要： Monday, 5. June 2006, 12:27:29 发表者: 吴军，Google 研究员 [离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句，我们用 Google Trends 来搜索一下“离... 阅读全文

posted @ 2006-07-24 18:16 Mark Hu 阅读(436) 评论(0) 推荐(0) 编辑

如何确定网页和查询的相关性

摘要：我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面，一个有一定编程基础的读者应该可以写一个简单的搜索引擎了，比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子，查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页（详见关于布尔运算的系列）。现在任何一个搜索引... 阅读全文

posted @ 2006-07-24 18:09 Mark Hu 阅读(215) 评论(0) 推荐(0) 编辑

余弦定理和新闻的分类

摘要：余弦定理和新闻的分类似乎是两件八杆子打不着的事，但是它们确有紧密的联系。具体说，新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻，它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点，我们需要想办法用一组数字来描述一篇新闻。我们来看看怎样找一组数字，或者说一个向量来描述一篇新闻... 阅读全文

posted @ 2006-07-24 16:44 Mark Hu 阅读(380) 评论(0) 推荐(0) 编辑

申请了这个ＢＬＯＧ，准备开始记录我的程序生活

摘要：这个ＢＬＯＧ是记录我程序生活的，记录了我在程序生活中的辛酸，快乐，以及我的一些工作经历，一些工作经验．希望能够和朋友们共享程序带给我们的快乐．如果你想了解我的学习日记部分，可以访问我ＭＳＮ上的ＢＬＯＧ http://spaces.msn.com/huhiming 希望在这里，享受我快乐的程序生活．阅读全文

posted @ 2006-07-20 09:24 Mark Hu 阅读(161) 评论(0) 推荐(0) 编辑

我的程序生活

导航

公告