摘要:
Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。而且对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的... 阅读全文
摘要:
1. 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。2. 支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。3. 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。4. 检索结果能标示丰富的网... 阅读全文
摘要:
一, 开源项目(1)Lucene地址:http://lucene.apache.org/Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的... 阅读全文
摘要:
阅读全文
摘要:
一、整站优化目的:增加网站在搜索引擎中的权重,使排名靠前。二、整站优化的服务定位?与关键词优化服务将大量的精力放到外部链接资源优化相比,整站优化则更多的将注意放到用户行为的研究上,与关键词优化研究需要密切关注搜索引擎算法不同的是,整站优化和搜索引擎的关系从对立走向独立,两者最终服务的都是用户。而搜索引擎则充当了网站内容的检验者的角色,利用网站在搜索引擎中的表现来弥补网站不足,优化网站的质量。也就是... 阅读全文
摘要:
正则表达式30分钟入门教程版本:v2.31 (2009-4-11) 作者:deerchao 转载请注明来源目录跳过目录本文目标如何使用本教程正则表达式到底是什么东西?入门测试正则表达式元字符字符转义重复字符类分枝条件反义分组后向引用零宽断言负向零宽断言注释贪婪与懒惰处理选项平衡组/递归匹配还有些什么东西没提到联系作者最后,来点广告……网上的资源及本文参考文献更新纪录本文... 阅读全文
摘要:
一本书的页码从自然数1开始顺序编码直到自然数n。书的页码按照通常的习惯编排,每个页码都不含多余的前导数字0。例如,第6页用数字6表示,而不是06或006等。数字计数问题要求对给定书的总页码n,计算出书的全部页码中分别用到多少次数字0,1,2,…,9。编程任务:给定表示书的总页码的10进制整数n (1≤n≤10^9)。编程计算书的全部页码中分别用到多少次数字0,1,2,&h... 阅读全文
摘要:
一个由c/C++编译的程序占用的内存分为以下几个部分1、栈区(stack)—由编译器自动分配释放,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。2、堆区(heap)—一般由程序员分配释放,若程序员不释放,程序结束时可能由OS回收。注意它与数据结构中的堆是两回事,分配方式倒是类似于链表。3、全局区(静态区)(static)—全局变量和静态变量的... 阅读全文
摘要:
ASCII码对照表ASCII, American Standard Code for Information Interchange 念起来像是 "阿斯key",定义从 0 到 127 的一百二十八个数字所代表的英文字母或一样的结果与意义。由于只使用7个位元(bit)就可以表示从0到127的数字,大部分的电脑都使用8个位元来存取字元集(character set),所以从128到255之间的数字可... 阅读全文