随笔分类 - 学习记录-这就是搜索引擎
摘要:1. 背景 1.1 重复网页的类型 在互联网中,近似重复网页(Near Duplicate Web Page)的数量占网页总数的比例高达29%,完全相同的页面占全部页面的22%,其中根据内容和布局又可以分为四种。 | | 内容相同 | 部分重要内容相同 | | | | | | 布局相同 | 完全相同
阅读全文
摘要:0 背景 Map/Reduce是Google针对海量信息处理提出的非常著名的云计算模型,包括Hadoop等众多开源系统都采纳了这一方法,成为了主流的云计算模型。 Map/Reduce是一个计算模型的同时,也是一个计算框架,负责将计算任务分配到众多机器上,并对机器失效等情况自动跟踪,使得应用开发者只要
阅读全文
摘要:0. 背景 BigTable是一个负责管理海量结构化或者半结构化数据的分布式存储系统。在Google的云存储体系中处于核心地位,起到了承上启下的作用。之前说的GFS是一个分布式的海量文件管理系统,其对于存储的文件没有任何假定,而BigTable是在GFS的基础上建立了数据的结构化解释。BigTabl
阅读全文
摘要:1. 背景 在分布式系统中,不同机器的进程之间往往需要协调动作,如果不同的进程之间共享了同一个或者同一组资源,就需要对他们的行为进行互斥来保证一致性,这个时候就需要使用到分布式锁。 分布式锁,是控制分布式系统之间同步访问共享资源的一种方式。在传统的单体应用中,我们也会使用锁来解决线程之间共享资源访问
阅读全文
摘要:1. 背景 之前说过,搜索引擎需要将互联网上百亿级别的网页内容存到本地磁盘上,基于这一存储海量数据的需求,Google开发了GFS。GFS(Google File System)为了能够存储百亿级的海量网页信息专门开发的文件系统。在Google整个云存储与云计算技术框架中,GFS是其他相关技术的基石
阅读全文
摘要:1. 背景 为什么需要云存储和云计算?对于商业搜索引擎来说,需要处理的数据超过百亿,并且不部分数据都是互联网页面这样的无结构化或者半结构化数据。云存储和云计算平台的目的,就是为了存储和管理这些海量数据变得简单化。目前来看,一套高效的云存储和云计算平台,已经成为了搜索引擎的核心竞争力。 这本书主要是通
阅读全文
摘要:1. 背景 互联网网页是通用搜索引擎主要的处理对象,目前互联网上的网页数量以百亿计,所以通用搜索引擎首要面临的问题是:如何设计出高效的下载系统,将海量的网页数据传输到本地,在本地形成互联网网页的镜像备份。这就是网络爬虫的功能。 2. 通用爬虫框架 下图是一个通用的爬虫框架 首先取一部分高质量的网页,
阅读全文
摘要:0. 前言 本系列文章主要是源于对《搜索引擎的技术架构》一书的读书笔记,其中会掺杂在其他文章或书籍的内容以及我个人对搜索引擎的理解,阅读顺序也没有按照书中目录的顺序来,相比于单纯的知识点总结,本系列更像是我借由此书来谈一谈我对搜索引擎的理解。 本系列文章专注于描述搜索引擎的技术架构,对搜索引擎的历史
阅读全文