学习记录-这就是搜索引擎 - 随笔分类 - Hugh_Locke

这就是搜索引擎(8) 网页去重

posted @ 2022-12-15 00:39 Hugh_Locke 阅读(642) 评论(0) 推荐(1) 编辑

这就是搜索引擎(7) 云计算之MapReduce

摘要：0 背景 Map/Reduce是Google针对海量信息处理提出的非常著名的云计算模型，包括Hadoop等众多开源系统都采纳了这一方法，成为了主流的云计算模型。 Map/Reduce是一个计算模型的同时，也是一个计算框架，负责将计算任务分配到众多机器上，并对机器失效等情况自动跟踪，使得应用开发者只要阅读全文

posted @ 2022-12-03 22:44 Hugh_Locke 阅读(191) 评论(0) 推荐(0) 编辑

这就是搜索引擎(6) 云存储之BigTable

摘要：0. 背景 BigTable是一个负责管理海量结构化或者半结构化数据的分布式存储系统。在Google的云存储体系中处于核心地位，起到了承上启下的作用。之前说的GFS是一个分布式的海量文件管理系统，其对于存储的文件没有任何假定，而BigTable是在GFS的基础上建立了数据的结构化解释。BigTabl 阅读全文

posted @ 2022-12-03 17:47 Hugh_Locke 阅读(236) 评论(0) 推荐(0) 编辑

这就是搜索引擎(5) 云存储之分布式锁服务

摘要：1. 背景在分布式系统中，不同机器的进程之间往往需要协调动作，如果不同的进程之间共享了同一个或者同一组资源，就需要对他们的行为进行互斥来保证一致性，这个时候就需要使用到分布式锁。分布式锁，是控制分布式系统之间同步访问共享资源的一种方式。在传统的单体应用中，我们也会使用锁来解决线程之间共享资源访问阅读全文

posted @ 2022-12-01 23:42 Hugh_Locke 阅读(84) 评论(0) 推荐(0) 编辑

这就是搜索引擎(4) 云存储之Google文件系统(GFS)

摘要：1. 背景之前说过，搜索引擎需要将互联网上百亿级别的网页内容存到本地磁盘上，基于这一存储海量数据的需求，Google开发了GFS。GFS（Google File System）为了能够存储百亿级的海量网页信息专门开发的文件系统。在Google整个云存储与云计算技术框架中，GFS是其他相关技术的基石阅读全文

posted @ 2022-11-30 00:32 Hugh_Locke 阅读(925) 评论(0) 推荐(0) 编辑

这就是搜索引擎(3) 云存储与云计算概述

摘要：1. 背景为什么需要云存储和云计算？对于商业搜索引擎来说，需要处理的数据超过百亿，并且不部分数据都是互联网页面这样的无结构化或者半结构化数据。云存储和云计算平台的目的，就是为了存储和管理这些海量数据变得简单化。目前来看，一套高效的云存储和云计算平台，已经成为了搜索引擎的核心竞争力。这本书主要是通阅读全文

posted @ 2022-11-27 22:56 Hugh_Locke 阅读(255) 评论(0) 推荐(0) 编辑

这就是搜索引擎(2) 网络爬虫

摘要：1. 背景互联网网页是通用搜索引擎主要的处理对象，目前互联网上的网页数量以百亿计，所以通用搜索引擎首要面临的问题是：如何设计出高效的下载系统，将海量的网页数据传输到本地，在本地形成互联网网页的镜像备份。这就是网络爬虫的功能。 2. 通用爬虫框架下图是一个通用的爬虫框架首先取一部分高质量的网页，阅读全文

posted @ 2022-11-27 20:06 Hugh_Locke 阅读(340) 评论(0) 推荐(0) 编辑

这就是搜索引擎(1) 搜索引擎的技术架构

摘要：0. 前言本系列文章主要是源于对《搜索引擎的技术架构》一书的读书笔记，其中会掺杂在其他文章或书籍的内容以及我个人对搜索引擎的理解，阅读顺序也没有按照书中目录的顺序来，相比于单纯的知识点总结，本系列更像是我借由此书来谈一谈我对搜索引擎的理解。本系列文章专注于描述搜索引擎的技术架构，对搜索引擎的历史阅读全文

posted @ 2022-11-27 20:04 Hugh_Locke 阅读(509) 评论(0) 推荐(0) 编辑

Hugh_Locke

我们都生活在阴沟里，但依然有人仰望星空

随笔分类 - 学习记录-这就是搜索引擎

公告

随笔分类 (199)

随笔档案 (201)

阅读排行榜

评论排行榜

推荐排行榜

最新评论