jckchj 包容是一缕阳光,不仅温暖了别人,更照亮了自己。

2006年8月24日

[转载][IDF是特定状况下的交叉熵]数学之美 系列九 -- 如何确定网页和查询的相关性

摘要: 数学之美 系列九 -- 如何确定网页和查询的相关性 2006年6月27日 上午 09:53:00 发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们... 阅读全文

posted @ 2006-08-24 18:24 优雅强盗*佛法无边 阅读(298) 评论(0) 推荐(0) 编辑

信息熵(Entropy)到底是用来衡量什么的?

摘要: PS:简单而言,信息熵是衡量字符编码长度效率的参照,而不是通讯编码的信息含量大小(文中说的文字效率)的参照。从信息计算的角度来看,汉字其实有很大优势的。利用大众的信息不对称,一小撮人对信息论和计算机知识进行断章取义,得出错误的结论鼓吹拼音化的谬论,值得警惕! ——与Philip ZHANG商榷 思明 Philip ZHANG先生在反驳彭小明的时候,提出一个观点,他说:“ 就语言文字来说,整体效... 阅读全文

posted @ 2006-08-24 11:42 优雅强盗*佛法无边 阅读(2167) 评论(0) 推荐(0) 编辑

导航