上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 30 下一页
摘要: 发表者:吴军,Google 研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如,在上... 阅读全文
posted @ 2009-09-11 15:03 小y 阅读(531) 评论(0) 推荐(0) 编辑
摘要: 发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包... 阅读全文
posted @ 2009-09-11 15:02 小y 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 数学之美 系列八-- 贾里尼克的故事和现代语言处理发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fre... 阅读全文
posted @ 2009-09-11 15:01 小y 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 数学之美 系列七 -- 信息论在信息处理中的应用发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必... 阅读全文
posted @ 2009-09-11 15:00 小y 阅读(892) 评论(0) 推荐(0) 编辑
摘要: 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日 上午 07:15:00发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我... 阅读全文
posted @ 2009-09-11 15:00 小y 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]世界上不可能有比二... 阅读全文
posted @ 2009-09-11 14:59 小y 阅读(574) 评论(0) 推荐(0) 编辑
摘要: 数学之美系列 4 -- 怎样度量信息?发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵&rdq... 阅读全文
posted @ 2009-09-11 14:58 小y 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到... 阅读全文
posted @ 2009-09-11 14:57 小y 阅读(696) 评论(0) 推荐(0) 编辑
摘要: 发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开... 阅读全文
posted @ 2009-09-11 14:56 小y 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。系列一: 统计语言模型 (Statistical Lan... 阅读全文
posted @ 2009-09-11 14:54 小y 阅读(1183) 评论(0) 推荐(0) 编辑
摘要: 关于Host与WorkflowInstance之间的通讯工作流是将程序(实际上就是业务)流程独立出来,建立健壮的可伸缩的交互式的流程管理。其基本任务是保证每一个步骤必须严格地执行且仅可以执行一遍。WF和其宿主(Host)之间必须能够进行通讯,不然就失去了“交互性”,这里介绍三种方法。1. 使用参数如在workflow1中有定义两个属性:private string inpu... 阅读全文
posted @ 2009-09-10 17:46 小y 阅读(2483) 评论(4) 推荐(1) 编辑
摘要: 微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)……   (一)深入浅出理解索引结构   实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇... 阅读全文
posted @ 2009-08-28 10:14 小y 阅读(26841) 评论(15) 推荐(23) 编辑
摘要: 网站的性能(Performance)要考虑两方面,一方面是在Server端的运行效率,另一方面是在Client端感受到的效率。不要以为Server端效率高这个网站或者服务给用户的体验就是高效的,如果不考虑影响Client Performance的因素,Server端跑得再快用户也可能感觉慢得和牛一样。Yahoo的哥们做的研究真不是盖的,他们还写了本书《High Performance Web Si... 阅读全文
posted @ 2009-08-17 21:35 小y 阅读(1692) 评论(2) 推荐(0) 编辑
摘要: HttpWorkerRequest对像在ASP.Net处理流程中的位置:每一个ASP.NET程序执行时都会对当前URL的请求进行解析,本文将分析ASP.NET页面请求的原理。当我们在浏览器上输入一个URL时, 流程如下:首先被WWW服务器截获(inetinfo.exe进程), 该进程首先判断页面后缀, 然后根据IIS中配置决定调用具体的扩展程序。如aspx就会调用aspnet_isapi.dll,... 阅读全文
posted @ 2009-08-09 18:19 小y 阅读(3095) 评论(1) 推荐(0) 编辑
摘要: 网易新闻:http://news.163.com/09/0801/01/5FJH66T2000120GR.html7月29日,湖北老河口市第二期经适房公开摇号,市民发现这514户中出现了“14连号”的现象,而且其中一名中签者刚满17岁,怀疑其中存在舞弊。湖北老河口市第二期经适房公开摇号,从1138名申请人中摇出了514名住户,市民发现这514户中出现了“14连号... 阅读全文
posted @ 2009-08-02 00:43 小y 阅读(1495) 评论(2) 推荐(0) 编辑
摘要: 用yield关键字构建迭代器方法在以前,如果我们希望构建支持foreach枚举的自定义集合(如Garage),只能实现IEnumerable接口(可能还有IEnumerator接口)。然而,从.NET 2.0发布以来,还可以通过迭代器来构建使用foreach的类型。简单来说,迭代器就是这样一个成员方法,它指定了容器内部项被foreach处理时该如何返回。虽然迭代器方法还是必须命名为GetEnume... 阅读全文
posted @ 2009-07-29 13:14 小y 阅读(2963) 评论(0) 推荐(0) 编辑
摘要: 介绍日志保存到文本文件和ms sql server的方法 日志信息保存到.txt文件 1 在http://logging.apache.org/log4net/downloads.html”下载 下载incubating-log4net-1.2.10.Zip文件,解压 在log4net-1.2.10 阅读全文
posted @ 2009-07-13 17:36 小y 阅读(3694) 评论(0) 推荐(0) 编辑
摘要: 1、找寻支持QQ HTTP协议的服务器。大家也许会被一些假像所迷惑,也许会认为QQ的HTTP服务器是基于80口进行通信的(如:218.17.209.23:80),其实不然,正真基于HTTP的服务器应该是:http://tqq.tencent.com:8000,它是一个通过8000口进行通讯的服务器。由于QQ的HTTP服务器并不支持HTTP协议中GET方法,它支持POST方法。所以我们要给QQ的HT... 阅读全文
posted @ 2009-07-13 14:57 小y 阅读(1920) 评论(4) 推荐(4) 编辑
摘要: 股票数据的获取目前有如下两种方法可以获取:1. http/javascript接口取数据2. web-service接口1.http/javascript接口取数据1.1Sina股票数据接口以大秦铁路(股票代码:601006)为例,如果要获取它的最新行情,只需访问新浪的股票数据接口:http://hq.sinajs.cn/list=sh601006这个url会返回一串文本,例如:var hq_st... 阅读全文
posted @ 2009-07-13 14:49 小y 阅读(6906) 评论(4) 推荐(0) 编辑
摘要: 用window.showModalDialog() 实现 test1.htm =================== <script> var a = window.showModalDialog("test2.htm") for(i=0;i<a.length;i++) alert(a[i]) </script> test2.htm ==========... 阅读全文
posted @ 2009-07-01 16:48 小y 阅读(2212) 评论(0) 推荐(0) 编辑
摘要: 字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。编码(Encoding)和字... 阅读全文
posted @ 2009-05-20 17:45 小y 阅读(2172) 评论(1) 推荐(0) 编辑
摘要: 导出成xls文件用excel打开。通用的代码如下:[代码]必须加上后面的VerifyRenderingInServerForm函数,否则会报错。注意要使用utf8编码,不能用default。 阅读全文
posted @ 2009-05-08 11:39 小y 阅读(983) 评论(1) 推荐(0) 编辑
摘要: 1.关于Server.UrlPathEncode和Server.UrlEncode的区别Server.UrlPathEncode默认使用的是utf-8编码而Server.UrlEncode默认为系统默认编码(一般是gb2312)Server.UrlDecode默认使用系统编码解码。所以这里容易发生路径解码成乱码的问题。Response.Write(Server.UrlDecode(Server.U... 阅读全文
posted @ 2009-05-06 16:56 小y 阅读(881) 评论(0) 推荐(0) 编辑
摘要: 技术题做完后,先检查技术是否合格,技术合格的并非就一定是合适人选,还要做素质面试。 如下是小y出的面试题: (上进心)1.你的职业规划是怎样的,未来两年想朝哪个方向发展? (人生态度)2.你认为自己最大的优势(或优点)是什么?最大的缺点又是什么? (责任心、执行力)3.如果你给出了一个开发进度,开发当中却发现难以完成,或需要加班才可以完成,你会怎么做? (思维缜密、周全性)4.背包问题... 阅读全文
posted @ 2009-04-27 14:18 小y 阅读(1796) 评论(0) 推荐(1) 编辑
摘要: 此程序为中国移动CMPP协议程序接口,适合在中国移动申请了短信发送端口的公司使用。 短信群发已经成为现在软件系统、网络营销等必不可少的应用工具。可应用在短信验证、信息群发、游戏虚拟商品购买、事件提醒、送祝福等方面。 本程序功能包括: 1、支持Cmpp2.0、3.0协议;(只能选其中一种) 2、支持一 阅读全文
posted @ 2009-04-16 21:00 小y 阅读(13994) 评论(54) 推荐(6) 编辑
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 30 下一页