公告

本博客遵循CC协议2.5，即署名-非商业使用-相同方式共享。所有未明确注明转载的文章均为本博客原创文章，对于原创文章的转载请注明作者并保持原文链接，否则保留追究法律责任的权利。

昵称： KK2038
园龄： 17年10个月
荣誉：推荐博客
粉丝： 119
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

统计

随笔 - 103
文章 - 1
评论 - 232
阅读 - 37万

随笔档案 (103)

随笔分类 - 好文分享

摘要：2006年4月26日上午 08:11:00 发表者：吴军，Google 研究员前言: Google 一直以 "整合全球信息，让人人能获取，使人人能受益" 为使命。那么究竟每一条信息应该怎样度量呢？信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，香农提出了"信息熵"(shāng) ... 阅读全文

posted @ 2009-02-01 03:22 KK2038 阅读(2064) 评论(0) 推荐(0) 编辑

数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用

摘要：2006年4月17日上午 08:01:00 发表者：吴军，Google 研究员前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根... 阅读全文

posted @ 2009-02-01 03:21 KK2038 阅读(2987) 评论(0) 推荐(0) 编辑

数学之美系列二 -- 谈谈中文分词

摘要：2006年4月10日上午 08:10:00 发表者: 吴军， Google 研究员谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词：中国 / 航天 / 官员 / 应邀 / 到 ... 阅读全文

posted @ 2009-02-01 03:20 KK2038 阅读(3515) 评论(0) 推荐(0) 编辑

数学之美系列一 -- 统计语言模型

摘要：2006年4月3日上午 08:15:00 发表者: 吴军, Google 研究员前言也许大家不相信，数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时，总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地，介绍一些数学工具，以及我们是如何利用这些工具来开发 Goog... 阅读全文

posted @ 2009-02-01 03:16 KK2038 阅读(5431) 评论(1) 推荐(0) 编辑

大教堂和市集（中文版）

摘要：From Wikisource 中文> GNU 大教堂和市集 -- Eric Raymond, HansB翻译目录一. 大教堂和市集二. 邮件必须得通过 2.1 1.每个好的软件工作都开始于搔到了开发者本人的痒处。 2.2 2.好程序员知道该写什么，伟大的程序员知道该重写（和重用）什么。 2.3 3.“计划好抛弃，无论如何，你会的”(Fred Brooks,《神秘的人月》第11章) 2.4 4... 阅读全文

posted @ 2009-01-31 18:59 KK2038 阅读(667) 评论(0) 推荐(0) 编辑

Google的价值观

摘要：转自Google Google 创始人之一 Larry Page 指出：“完美的搜索引擎需要做到确解用户之意，切返用户之需”。就搜索技术的现状而言，我们需要通过研究、开发和革新来实现长远的发展。Google 致力于成为这一技术领域的开拓者。尽管 Google 已是全球公认的业界领先的搜索技术公司，但其目标是为所有信息搜寻者提供更高标准的服务，无论用户是坐在波士顿的台式机旁，还是正在驾车... 阅读全文

posted @ 2009-01-31 17:43 KK2038 阅读(782) 评论(0) 推荐(0) 编辑

字符编解码的故事（ASCII，ANSI，Unicode，Utf-8）

摘要：此文为转载，有少许修订，原文出处不详。很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们认为8个开关状态作为原子单位很好，于是他们把这称为"字节"。再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出更多的状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为"计算机"。开始计算机只在美国用。八位的字... 阅读全文

posted @ 2009-01-31 15:10 KK2038 阅读(4451) 评论(1) 推荐(0) 编辑

KK的技术人生

公告

统计

我的标签

随笔分类 (82)

随笔档案 (103)

阅读排行榜

评论排行榜

最新评论