搜索引擎Search Engine - 随笔分类 - 夏至冬末

Trie树：应用于统计和排序

摘要：1. 什么是trie树 1.Trie树（特例结构树） Trie树，又称单词查找树、字典树，是一种树形结构，是一种哈希树的变种，是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比... 阅读全文

posted @ 2012-10-31 17:08 夏至冬末阅读(242) 评论(0) 推荐(0)

搜索引擎相关资源

摘要：1. 开源项目1.Lucene全文检索系统 http://lucene.apache.org和http://www.lucene.com.cn/ Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全... 阅读全文

posted @ 2012-09-29 11:10 夏至冬末阅读(130) 评论(0) 推荐(0)

链接分析算法之：HillTop算法

摘要：Hilltop算法是由Krishna Baharat 在2000年左右研究的，于2001年申请专利，但是有很多人以为Hilltop算法是由谷歌研究的。只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师，然后授权给Google使用的。在与PageRank算法相比之下... 阅读全文

posted @ 2012-09-26 17:04 夏至冬末阅读(287) 评论(0) 推荐(0)

链接分析算法之：SALSA算法

摘要：SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点，既可以利用HITS算法与查询相关的特点，也可以采纳PageRank的“随机游走模型”，这是SALSA算法提出的背景。由此可见，SALSA算法融合了PageRank和HITS算法的基本思想，从实际效果来说，很多实验数据表明... 阅读全文

posted @ 2012-09-25 17:04 夏至冬末阅读(562) 评论(0) 推荐(0)

链接分析算法之：HITS算法

摘要：HITS（HITS(Hyperlink - Induced Topic Search) ）算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Cent... 阅读全文

posted @ 2012-09-24 19:53 夏至冬末阅读(482) 评论(0) 推荐(0)

链接分析算法之：主题敏感PageRank

摘要：前面的讨论提到。PageRank忽略了主题相关性，导致结果的相关性和主题性降低，对于不同的用户，甚至有很大的差别。例如，当搜索“苹果”时，一个数码爱好者可能是想要看 iphone 的信息，一个果农可能是想看苹果的价格走势和种植技巧，而一个小朋友可能在找苹果的简笔画。理想情况下，应该为每个用户维护一... 阅读全文

posted @ 2012-09-23 13:11 夏至冬末阅读(348) 评论(0) 推荐(0)

PageRank算法

摘要：1. PageRank算法概述 PageRank,即网页排名，又称网页级别、Google左侧排名或佩奇排名。是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，自从Google在商业上获得空前的成功后，该算法也成为其他搜索引擎和学术界十分关注的计算模... 阅读全文

posted @ 2012-09-21 17:02 夏至冬末阅读(249) 评论(0) 推荐(0)

搜索引起的链接分析-计算网页的重要性

摘要：1. 链接分析搜索引擎在查找能够满足用户请求的网页时，主要考虑两方面的因素：网页和查询的相关性：是用户发出的查询与网页内容的内容相似性得分。网页的重要性：通过链接分析方法计算获得的得分。搜索引擎融合两者，共同拟合出相似性评分函数，来对搜索结果进行排序。常见的链接分析算法除了鼎鼎有名的Page... 阅读全文

posted @ 2012-09-19 18:12 夏至冬末阅读(223) 评论(0) 推荐(0)

机器学习排序

摘要：从使用的数据类型，以及相关的机器学习技术的观点来看，互联网搜索经历了三代的发展历程。第一代技术，将互联网网页看作文本，主要采用传统信息检索的方法。第二代技术，利用互联网的超文本结构，有效地计算网页的相关度与重要度，代表的算法有 PageRank 等。第三代技术，有效利用日志数据与统计学习方法，使... 阅读全文

posted @ 2012-09-18 16:00 夏至冬末阅读(420) 评论(0) 推荐(0)

搜索引擎的检索模型-查询与文档的相关度计算

摘要：1. 检索模型概述搜索结果排序时搜索引擎最核心的部分，很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多，但最主要的两个因素是用户查询和网页内容的相关度，以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。判断网页内容是否与用户査询相关，这依赖于搜索引擎... 阅读全文

posted @ 2012-09-17 14:12 夏至冬末阅读(492) 评论(0) 推荐(0)

搜索引擎-处理查询

摘要：我们从用户的角度来看，用户不关心什么索引结构是倒排还是签名文件，也不需要知道相关排序算法。用户提交了查询，就需要获取满意的搜索结果。这个搜索结果就是搜索引擎是否提供有效的服务。1.查询流程查询流程图：1）用户提交查询2）分析查询查询预处理： 1. 一般过滤掉助词或者标点符号之类，如中文的“的”，... 阅读全文

posted @ 2012-09-14 18:19 夏至冬末阅读(153) 评论(0) 推荐(0)

倒排索引-搜索引擎的基石

摘要：1.概述在关系数据库系统里，索引是检索数据最有效率的方式,。但对于搜索引起，他它并不能满足其特殊要求：1）海量数据：搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量，面对如此海量数据 ,使得数据库系统很难有效的管理。 2）数据操作简单：搜索引擎使... 阅读全文

posted @ 2012-09-12 16:47 夏至冬末阅读(193) 评论(0) 推荐(0)

搜索引擎-倒排索引基础知识

摘要：搜索引擎的索引1.单词——文档矩阵单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图3-1展示了其含义。图3-1的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。图3-1 单词-文档矩阵从纵向即文档这个维度来看，每列代表文档包含... 阅读全文

posted @ 2012-09-11 19:49 夏至冬末阅读(134) 评论(0) 推荐(0)

搜索引擎-网络爬虫

摘要：通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。浏览器和网络爬虫是两种不同的网络客户端，都以相同的方式来获取网页... 阅读全文

posted @ 2012-09-10 21:05 夏至冬末阅读(225) 评论(0) 推荐(0)

搜索引擎的技术架构

摘要：1. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种：分别是全文搜索引擎（Full Text Search Engine）目录索引类搜索引擎（Search Index/Directory）元搜索引擎（Meta Search Engine）。■ 全文搜索引擎全文搜索引擎是名副其实的搜索引擎，国外... 阅读全文

posted @ 2012-09-07 17:30 夏至冬末阅读(262) 评论(0) 推荐(0)

随笔分类 - 搜索引擎Search Engine