摘要:
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成了一... 阅读全文
摘要:
互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能... 阅读全文
摘要:
Journals ACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transacti... 阅读全文
摘要:
Machine Learning 大家(1):M. I. Jordan (http://www.cs.berkeley.edu/~jordan/) 在我的眼里,M Jordan无疑是武林中的泰山北斗。他师出MIT,现在在berkeley坐镇一方,在附近的两所名校(加stanford)中都可以说无出其右者, stanford的Daphne Koller虽然也声名遐迩,但是和Jordan比还是有一段距... 阅读全文
摘要:
以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statementI. Information Retrieval1. Lemur/IndriThe Lemur Toolkit for Language Modeling and Information Retrievalhttp://www.lemurproject.org/Indri:Le... 阅读全文
摘要:
感觉数学似乎总是不够的。这些日子为了解决research中的一些问题,又在图书馆捧起了数学的教科书。 从大学到现在,课堂上学的和自学的数学其实不算少了,可是在研究的过程中总是发现需要补充新的数学知识。Learning和Vision都是很多种数学的交汇场。看着不同的理论体系的交汇,对于一个researcher来说,往往是非常exciting的enjoyable的事情。不过,这也代表着要充分了解这个领... 阅读全文
摘要:
一、搜索引擎技术/动态资源、综合类1、卢亮的搜索引擎研究 http://www.wespoke.com/卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。2、laolu'blog 有不少来自国外的关于搜索引擎方面的资料,偏重于资料和数... 阅读全文
摘要:
按语:几天前本博从新语丝上转贴了邹承鲁先生关于如何培养研究生的文章。今天,长刚向我推荐了这篇,我看了一遍觉得有意思。我决定转贴该文,因为邹先生的主要针对老师、针对自然科学领域,而王先生这篇则针对面向学生,针对的是人文学科而言的,两者形成很好的互补。 这个题目我非常喜欢,因为这个题目,对大家多少都有实际的帮助。如果下次我必须再登台演讲,我觉得这个题目还可以再发挥一两次。我是台大历史研究所毕业的,所以... 阅读全文
摘要:
关于学术价值的评价,不同的人,不同的时期会有不同的理解。我想,做过paper的朋友可能都有这样的经历:reviewer完全不屑于自己的工作。很多人都对于这种“低水平”的reviewer义愤填膺。这更多是源于背景差异导致的价值取向的不同。一项工作的意义,主要是下面一些方面 新的理论,新的模型 新的系统设计,或者新的应用形式 实验性能的提高,更快,更准,或者更可靠。 理论背景的人,通常喜欢第一... 阅读全文
摘要:
Optimization 优化 PCI里面介绍了两个算法:simulated annealing,模拟退火和genetic algorithms,遗传算法。 无论哪种优化算法,这里都需要一个代价计算函数来判定计算过程中产生的结果的好坏。 sa要设置一个较高的初始温度,按照由快变慢的速度在迭代过程中降温。 算法是同一个随机结果开始,在解向量空间的某一维度上做一个小的随机变化而生成一个新的解。... 阅读全文