随笔分类 -  课程 / 并行分布式计算

摘要:谷歌在2003到2006年间发表了三篇论文,《MapReduce: Simplified Data Processing on Large Clusters》,《Bigtable: A Distributed Storage System for Structured Data》和《The Goog 阅读全文
posted @ 2023-06-18 15:06 ImreW 阅读(31) 评论(0) 推荐(0) 编辑
摘要:谷歌在2003到2006年间发表了三篇论文,《The Google File System》,《Bigtable: A Distributed Storage System for Structured Data》和《MapReduce: Simplified Data Processing on 阅读全文
posted @ 2023-06-17 19:34 ImreW 阅读(293) 评论(0) 推荐(0) 编辑
摘要:一、Apache Hudi (一)背景 Hudi 是 Uber 主导开发的开源数据湖框架。所以大部分的出发点都来源于 Uber 自身场景,比如司机数据和乘客数据通过订单 Id 来做 Join 等。在 Hudi 过去的使用场景里,和大部分公司的架构类似,采用批式和流式共存的 Lambda 架构,我们先 阅读全文
posted @ 2023-06-12 19:07 ImreW 阅读(303) 评论(0) 推荐(1) 编辑
摘要:MapReduce,它是 Hadoop 框架中处理的核心构建块之一。Google 在 2004 年 12 月发表了一篇关于 MapReduce 技术的论文,这成为 Hadoop Processing Model 的起源。 MapReduce 是一种编程模型,可以让我们对庞大的数据集进行并行和分布式处 阅读全文
posted @ 2023-05-29 21:08 ImreW 阅读(28) 评论(0) 推荐(0) 编辑
摘要:(一)Spark介绍 Spark是一个通用的分布式数据处理引擎。 通用:通用指的是Spark可以做很多事情。包括机器学习,数据流传输,交互分析,ETL,批处理,图计算等等等等都是Spark可以做到的。甚至可以说,你需要用数据实现的任何事情,你都可以用Spark试试看。 分布式:指的是Spark处理数 阅读全文
posted @ 2023-05-27 21:59 ImreW 阅读(128) 评论(0) 推荐(0) 编辑
摘要:在开发接口服务器的过程中,为了防止客户端对于接口的滥用,保护服务器的资源, 通常来说我们会对于服务器上的各种接口进行调用次数的限制。比如对于某个 用户,他在一个时间段(interval)内,比如 1 分钟,调用服务器接口的次数不能够 大于一个上限(limit),比如说 100 次。如果用户调用接口的 阅读全文
posted @ 2023-04-17 16:39 ImreW 阅读(855) 评论(0) 推荐(0) 编辑
摘要:(一)MPI简介 MPI是一个跨语言的通讯协议,用于编写并行计算机。支持点对点和广播。MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。 MPI的目标是高性能,大规模性,和可移植性。MPI在今天仍为高性能计算的主要模型。与OpenMP并行程序不同,MPI是 阅读全文
posted @ 2023-03-05 21:58 ImreW 阅读(77) 评论(0) 推荐(0) 编辑
摘要:原文链接:并行编程OpenMP基础及简单示例 一、OpenMP基本概念 OpenMP是一种用于共享内存并行系统的多线程程序设计方案,支持的编程语言包括C、C++和Fortran。OpenMP提供了对并行算法的高层抽象描述,特别适合在多核CPU机器上的并行程序设计。 编译器根据程序中添加的pragma 阅读全文
posted @ 2023-03-01 11:07 ImreW 阅读(136) 评论(0) 推荐(0) 编辑
摘要:(一)串行快速排序 程序中 j = right - 1; 语句说明:此句直接从倒数第二个开始,同时由于--j会判断倒数第三个。这是因为在使用三数中值分割后:最后一个一定大于枢纽元,经过交换,倒数第二个就是枢纽元。 #include <iostream> #define CUTOFF 10 // 定义 阅读全文
posted @ 2023-03-01 07:44 ImreW 阅读(60) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示