摘要:
摘要:本文简要介绍和比较了目前搜索引擎所使用的排序算法,主要包括词频位置加权排序算法,链接分析排序算法,并着重介绍了PageRank算法和HITS算法的思想以及二者比较的优缺点。关键词:搜索引擎;排序; PageRank; HITS1前言Google和Baidu的崛起,很大程度上是由于他们使用了较以... 阅读全文
2015年6月19日 #
摘要:
1. 检索模型概述 搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。 判断网页内容是否与用户査询相关,这依赖于搜索引擎... 阅读全文
摘要:
2.1基于词频统计——词位置加权的搜索引擎利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越... 阅读全文
摘要:
第一定律 相关性定律听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有 叫全文检索的。那时的相关性都是基... 阅读全文
2015年5月16日 #
摘要:
对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。面对海量待抓取网页,只有采取分布式架构,才有可能在较短时间内完成一轮抓取工作。 分布式爬虫可以分为若千个分布式层级。不同的应用可能由其中部分层级构成,下图是一个大型分布式爬虫的3个层级:分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫... 阅读全文
2015年5月14日 #
摘要:
2014年6月7日发生了一件事情:聊天程序“尤金·古斯特曼”(Eugene Goostman)在英国皇家学会举行的2014图灵测试大会上冒充一个13岁乌克兰男孩而骗过了33%的评委,从而按照图灵当初的定义,“通过”了图灵测试。尤金的在线对话页面,不幸的是因为这一事件给服务器带来的压力,该网站已经几天... 阅读全文
摘要:
摘 要:人工智能自创立以来以其快速的发展不断逼近人类智能的领地,但在人工智能的背后,有很多难以解决的工程学及理论问题,从而引起很多争议,其中最多的就是机器能否思维、人工智能能否真正实现的问题。图灵测试及中文屋论证两个思想实验分别从不同理路论证了人工智能实现的可能性,从而揭示出智能的根本特征:意向性。... 阅读全文
2015年5月10日 #
摘要:
前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向... 阅读全文
2015年5月2日 #
摘要:
(笔记图片截图自课程Image and video processing: From Mars to Hollywood with a stop at the hospital的教学视频,使用时请注意版权要求。)JPEG用哈夫曼编码(Huffman Encoder)作为其符号编码。哈弗曼编码是压缩算... 阅读全文
摘要:
前两天发布那个rsync算法后,想看看数据压缩的算法,知道一个经典的压缩算法Huffman算法。相信大家应该听说过David Huffman和他的压缩算法——Huffman Code,一种通过字符出现频率,Priority Queue,和二叉树来进行的一种压缩算法,这种二叉树又叫Huffman二叉树... 阅读全文