随笔分类 -  读书笔记

摘要:检索模型与搜索排序前言搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏以及用户接受与否。尽管搜索引擎在实际结果排序时融合了上百种排序因子,但最重要的两个因素还是用户查询和网页的内容相关性及网页链接情况。那么,我们得到用户搜索词之后,如何从内容相关性的角度上对网页进行排序输出... 阅读全文
posted @ 2015-06-10 00:25 天才白痴梦 阅读(2617) 评论(1) 推荐(0) 编辑
摘要:倒排列表压缩算法目前有很多种倒排列表算法可以选择,但是我们对评判算法的优劣需要定量指标。一般会考虑3个指标:压缩率、压缩速度以及解压速度。压缩率是指数据压缩前和压缩后大小的比例,显然,压缩率越高,就越节约磁盘空间。而压缩速度是压缩单位量的数据所花的时间,但是压缩往往是在建立索引过程中进行的,这是一个... 阅读全文
posted @ 2015-06-06 21:28 天才白痴梦 阅读(1850) 评论(0) 推荐(0) 编辑
摘要:索引的查询处理为搜索引擎构建索引,其目的是能更快速地提取与用户查询相关的文档信息,假设搜索引擎已经建立了索引,我们如何利用倒排索引来相应用户的查询呢?这一次的总结就是给大家分享一下搜索引擎对于用户查询的处理过程。目前有两种常见的查询处理机制,一种称为一次一文档方式,另外一种称为一次一单词方式。下面我... 阅读全文
posted @ 2015-06-03 19:33 天才白痴梦 阅读(1160) 评论(0) 推荐(0) 编辑
摘要:索引的建立和更新索引的建立前一总结里说到,如果索引结构建立好了,可以提高搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,在这里我就书中提到的三种方法简单总结一下。两遍文档遍历法第一次文档遍历第一次扫描文档集合时,并没有立即开始建立索引,而是收集一些的统计信息,比如文... 阅读全文
posted @ 2015-06-03 12:29 天才白痴梦 阅读(1208) 评论(0) 推荐(4) 编辑
摘要:《算法帝国》--读书笔记大约一个半月前在网上很偶然的机会看到了一则广告,就是对《算法帝国》一书的推销,作为现在大三的我,虽然已经不再参加ACM/ICPC竞赛,但是在看到书名的时候,还是被算法这两个字深深的吸引住了,以为这是一本算法竞赛方面的书籍,于是赶紧去京东购买此书。当我看到此书封面的时候,也就是... 阅读全文
posted @ 2015-06-01 00:53 天才白痴梦 阅读(4435) 评论(2) 推荐(0) 编辑
摘要:搜索引擎索引基础前几天我阅读了搜索引擎索引这一章,发现倒排索引这一方法确实很巧妙和迷人,它包含的原理和设计方法很独到。所以接下来,我想把我学习到的索引方面的知识给大家讲解一下,总共分为三篇:索引基础、索引建立和更新、索引查询。我们首先认识倒排索引基本概念文档:一般搜索引擎的处理对象是互联网网页,而文... 阅读全文
posted @ 2015-05-31 14:04 天才白痴梦 阅读(1002) 评论(1) 推荐(0) 编辑
摘要:前言考虑到上次的网络爬虫总结一文对基础的知识还没有介绍完整,所以今天花一点时间来补充上次的网络爬虫基础知识。这次给大家总结了两个方面的内容:暗网抓取和分布式爬虫。希望对阅读本文的博友们有所收获。暗网抓取物理学研究表明,在目前宇宙所有物质的总体质量中,星系等可见物质占其中的20%,不可探测的暗物质占据... 阅读全文
posted @ 2015-05-29 18:12 天才白痴梦 阅读(1015) 评论(0) 推荐(0) 编辑
摘要:网络爬虫基础前言通用搜索引擎的处理对象就是互联网网页,目前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。网络爬虫即起此作用,它是搜索引擎系统中很关键也很基础的构建。本次总结以及接下来的几次总结主要给大... 阅读全文
posted @ 2015-05-28 17:15 天才白痴梦 阅读(1163) 评论(4) 推荐(0) 编辑
摘要:这就是搜索引擎 -- 读书笔记一相信搜索引擎对于每一个爱好算法甚至爱好技术的IT人员都具有强烈的好奇心吧,因为搜索引擎在互联网中的地位实在是不可撼动。想象如果互联网没有了搜索引擎,那么我们平常技术上出现瓶颈了怎么办?甚至连普通的生活都离不开搜索,大学生的你订餐了吗?搜索引擎已经发展为每个人上网都离不... 阅读全文
posted @ 2015-05-25 11:12 天才白痴梦 阅读(1858) 评论(2) 推荐(5) 编辑

点击右上角即可分享
微信分享提示