分布式论文 - 随笔分类 - 某某人8265

大数据经典论文解读 - Borg

摘要：Borg Large-scale cluster management at Google with Borg an opportunity cost approach for job assignment in scalable computing cluster Multi-agent Clus 阅读全文

posted @ 2023-04-11 21:57 某某人8265 阅读(96) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - 流式计算 - MillWhell - Dataflow

摘要：Storm 的不足 Storm 利用异或操作实现了消息至少处理一次；kafka中利用存储在ZooKeeper的offset使得消息队列重放更加容易。Kafka和Storm组合实现了 At Least Once 消息处理机制。但只有实现“正好一次”（Exactly Once）才能得到正确的结果，为此“ 阅读全文

posted @ 2023-04-10 18:29 某某人8265 阅读(259) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - Kafka - 流批一体架构

摘要：Kafka 大数据系统架构是什么样？为什么需要Kafka这样的桥梁作为连接？ Kafka的系统设计与传统MQ有什么不同？如何实现分布式？如何动态添加 Broker并通知上下游？有了 Kafka 和 Storm 后如何搭建流式处理系统？如何处理故障带来地数据不准确？ Realtime Data P 阅读全文

posted @ 2023-04-09 21:44 某某人8265 阅读(419) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - S4 + Storm

摘要：S4 流式计算的模型是什么样？要解决哪些问题？ S4是如何设计，如何进行分布式计算的？ S4有哪些缺陷？在分析海量用户搜索、广告点击行为时，这个处理数据的的需求和MapReduce生成报表类似，但是要求数据统计的反馈时间尽可能短。如果频繁使用MapReduce将不得不面对：大量“额外开销”Map 阅读全文

posted @ 2023-04-09 12:13 某某人8265 阅读(241) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - Spanner

摘要：Spanner Megastore 存在各种缺点：跨实体组事务需要昂贵的两阶段事务，所有跨数据中心的数据写入都通过Paxos算法，使得单个实体组只能支持每秒几次的事务。 Spanner 是一个全新设计的新系统，而不是Megastore或Bigtable上的修修补补。两个主题：解决了Megastor 阅读全文

posted @ 2023-04-08 15:43 某某人8265 阅读(312) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - Metastore

摘要：Metastore Megastore: Providing scalable, highly available storage for interactive services 在Bigtable上支持SQL，实现分布式数据库：跨数据中心的多副本同步数据复制支持为多数据表的字段建立Schem 阅读全文

posted @ 2023-04-06 19:20 某某人8265 阅读(254) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - Spark

摘要：Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 可看作一个支持多轮迭代的MapReduce模型，但是引入了 RDD 这样的函数式对象的数据集概念。Sp 阅读全文

posted @ 2023-04-04 22:49 某某人8265 阅读(146) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - Dremel

摘要：Dremel 列式存储 Dremel: Interactive Analysis of Web-Scale Datasets Dremel: A Decade of Interactive SQL Analysis at Web Scale 开源项目：Parquet Hive通过分区分桶加快了扫描速阅读全文

posted @ 2023-04-04 21:20 某某人8265 阅读(386) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - Hive

摘要：Hive 基于HDFS和MapReduce提供了一个基本的SQL的数据仓库方案。关键点：在数据库系统设计时，如何把查询语言和计算框架分离，做好对现有系统的复用设计目标写SQL执行MapReduce任务数据模型从MapReduce任务到SQL语言间存在很多鸿沟序列化和类型信息，基于SQL的数阅读全文

posted @ 2023-04-03 21:09 某某人8265 阅读(225) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - 分布式锁 Chubby（分布式事务、Paxos、可线性化）

摘要：Chubby 分布式系统如何保障数据一致性 - 知乎 (zhihu.com) 在谷歌“三驾马车”中3个系统都是单Master系统，这个Master是系统的单点，一旦Master故障集群就无法提供服务。使用Backup Master，通过监控机制进行切换。但是：如何实现Backup Master和M 阅读全文

posted @ 2023-04-03 20:09 某某人8265 阅读(493) 评论(0) 推荐(0) 编辑

大数据经典论文解读 01

摘要：大数据核心3个概念：能伸缩到一千台以上的分布式数据处理集群技术这上千个节点是使用廉价PC搭建将数据中心当做一台计算机大数据的起源：“三架马车” 这三篇论文还依赖了两个基础设施：Chubby锁服务，Thrift序列化 MapReduce 演进路线：编程方式：最初的MapReduce需要工程师阅读全文

posted @ 2023-04-03 17:14 某某人8265 阅读(144) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - BigTable

摘要：BigTable 定位是分布式表格系统。步入21世纪后，单机关系db无法支撑海量数据，GFS等分布式文件系统可低成本支持存储但效率低。分布式事务模型、共识算法和Percolator、Spanner等NewSQL到2010年前后才成熟。所以当时取各项目共性，在GFS上封装一层KV结构。技术对标HBas 阅读全文

posted @ 2023-03-31 16:40 某某人8265 阅读(238) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - MapReduce

摘要：MapReduce 使用MapReduce框架只要实现一个Map函数和一个Reduce函数，Map函数实现映射，接受一个key-value并转换为多个键值对；Reduce是一个化简函数，接收一个key和对应的vallue，然后组成一组新的value输出出去。 map(k1, v1) -> list( 阅读全文

posted @ 2023-03-30 18:56 某某人8265 阅读(120) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - GFS

摘要：GFS 重点是：高可用、可扩展性、透明几个设计理念：故障很常见，而非意外存储内容为大文件，通常在几个GB 文件的修改方式是追加而非随机写，读多写少增加系统灵活性，如放松对GFS的一致性要求架构 GFS包括单节点Master、备用的shadow master、多个chunkserver、多个阅读全文

posted @ 2023-03-30 16:14 某某人8265 阅读(436) 评论(0) 推荐(0) 编辑

随笔分类 - 分布式&大数据 / 分布式论文

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论