12 2022 档案

摘要:1. 背景 1.1 重复网页的类型 在互联网中,近似重复网页(Near Duplicate Web Page)的数量占网页总数的比例高达29%,完全相同的页面占全部页面的22%,其中根据内容和布局又可以分为四种。 | | 内容相同 | 部分重要内容相同 | | | | | | 布局相同 | 完全相同 阅读全文
posted @ 2022-12-15 00:39 Hugh_Locke 阅读(642) 评论(0) 推荐(1) 编辑
摘要:1. 为什么我们需要协程? 要解释协程的由来,需要从最早的进程说起。 1.1 非抢夺式任务与抢夺式任务 在比较早的操作系统中,使用的是非抢夺式任务,也叫协作式任务,在这种任务方式下,后台进程的执行依赖于当前线程主动让出执行权,如果当前进程一直不让(例如陷入了死循环、一直等待遇到故障的网络报文)等,就 阅读全文
posted @ 2022-12-08 00:01 Hugh_Locke 阅读(666) 评论(0) 推荐(0) 编辑
摘要:0. 背景 在开发分布式高并发系统时,有三种常用的保护系统的手段:缓存、降级、限流 缓存:在访问数据库之前引入缓存,对一部分热度高的请求直接从缓存中获取目标数据,从而减少计算量,提升吞吐。 降级:当服务器压力剧增的情况下,通过根据当前业务情况和流量对一些服务和页面有策略的降级来保证核心任务的正常运行 阅读全文
posted @ 2022-12-06 00:44 Hugh_Locke 阅读(162) 评论(0) 推荐(0) 编辑
摘要:0 背景 Map/Reduce是Google针对海量信息处理提出的非常著名的云计算模型,包括Hadoop等众多开源系统都采纳了这一方法,成为了主流的云计算模型。 Map/Reduce是一个计算模型的同时,也是一个计算框架,负责将计算任务分配到众多机器上,并对机器失效等情况自动跟踪,使得应用开发者只要 阅读全文
posted @ 2022-12-03 22:44 Hugh_Locke 阅读(191) 评论(0) 推荐(0) 编辑
摘要:0. 背景 BigTable是一个负责管理海量结构化或者半结构化数据的分布式存储系统。在Google的云存储体系中处于核心地位,起到了承上启下的作用。之前说的GFS是一个分布式的海量文件管理系统,其对于存储的文件没有任何假定,而BigTable是在GFS的基础上建立了数据的结构化解释。BigTabl 阅读全文
posted @ 2022-12-03 17:47 Hugh_Locke 阅读(236) 评论(0) 推荐(0) 编辑
摘要:1. 背景 在分布式系统中,不同机器的进程之间往往需要协调动作,如果不同的进程之间共享了同一个或者同一组资源,就需要对他们的行为进行互斥来保证一致性,这个时候就需要使用到分布式锁。 分布式锁,是控制分布式系统之间同步访问共享资源的一种方式。在传统的单体应用中,我们也会使用锁来解决线程之间共享资源访问 阅读全文
posted @ 2022-12-01 23:42 Hugh_Locke 阅读(84) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示