2023 年 4月 3 日随笔档案 - 某某人8265

2023年4月3日

摘要： Hive 基于HDFS和MapReduce提供了一个基本的SQL的数据仓库方案。关键点：在数据库系统设计时，如何把查询语言和计算框架分离，做好对现有系统的复用设计目标写SQL执行MapReduce任务数据模型从MapReduce任务到SQL语言间存在很多鸿沟序列化和类型信息，基于SQL的数阅读全文

posted @ 2023-04-03 21:09 某某人8265 阅读(212) 评论(0) 推荐(0) 编辑

大数据经典论文解读 - 分布式锁 Chubby（分布式事务、Paxos、可线性化）

摘要： Chubby 分布式系统如何保障数据一致性 - 知乎 (zhihu.com) 在谷歌“三驾马车”中3个系统都是单Master系统，这个Master是系统的单点，一旦Master故障集群就无法提供服务。使用Backup Master，通过监控机制进行切换。但是：如何实现Backup Master和M 阅读全文

posted @ 2023-04-03 20:09 某某人8265 阅读(445) 评论(0) 推荐(0) 编辑

大数据经典论文解读 01

摘要：大数据核心3个概念：能伸缩到一千台以上的分布式数据处理集群技术这上千个节点是使用廉价PC搭建将数据中心当做一台计算机大数据的起源：“三架马车” 这三篇论文还依赖了两个基础设施：Chubby锁服务，Thrift序列化 MapReduce 演进路线：编程方式：最初的MapReduce需要工程师阅读全文

posted @ 2023-04-03 17:14 某某人8265 阅读(128) 评论(0) 推荐(0) 编辑

Thrift 格式解析

摘要： Thrift 格式解析 https://www.cnblogs.com/Forever-Kenlen-Ja/p/9649724.html 常用数据格式包括 CSV JSON XML，这些格式有缺点： CSV没有指定数据类型，如可能将数字开头的字符串无认为数字使用文本存储会浪费空间 JSON XML 阅读全文

posted @ 2023-04-03 09:44 某某人8265 阅读(205) 评论(0) 推荐(1) 编辑

公告