上一页 1 2 3 4 5 6 7 8 ··· 20 下一页
摘要: Metastore Megastore: Providing scalable, highly available storage for interactive services 在Bigtable上支持SQL,实现分布式数据库: 跨数据中心的多副本同步数据复制 支持为多数据表的字段建立Schem 阅读全文
posted @ 2023-04-06 19:20 某某人8265 阅读(172) 评论(0) 推荐(0) 编辑
摘要: Spark Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 可看作一个支持多轮迭代的MapReduce模型,但是引入了 RDD 这样的函数式对象的数据集概念。Sp 阅读全文
posted @ 2023-04-04 22:49 某某人8265 阅读(88) 评论(0) 推荐(0) 编辑
摘要: Dremel 列式存储 Dremel: Interactive Analysis of Web-Scale Datasets Dremel: A Decade of Interactive SQL Analysis at Web Scale 开源项目:Parquet Hive通过分区分桶加快了扫描速 阅读全文
posted @ 2023-04-04 21:20 某某人8265 阅读(262) 评论(0) 推荐(0) 编辑
摘要: Hive 基于HDFS和MapReduce提供了一个基本的SQL的数据仓库方案。关键点:在数据库系统设计时,如何把查询语言和计算框架分离,做好对现有系统的复用 设计目标 写SQL执行MapReduce任务 数据模型 从MapReduce任务到SQL语言间存在很多鸿沟 序列化和类型信息,基于SQL的数 阅读全文
posted @ 2023-04-03 21:09 某某人8265 阅读(164) 评论(0) 推荐(0) 编辑
摘要: Chubby 分布式系统如何保障数据一致性 - 知乎 (zhihu.com) 在谷歌“三驾马车”中3个系统都是单Master系统,这个Master是系统的单点,一旦Master故障集群就无法提供服务。使用Backup Master,通过监控机制进行切换。但是: 如何实现Backup Master和M 阅读全文
posted @ 2023-04-03 20:09 某某人8265 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 大数据核心3个概念: 能伸缩到一千台以上的分布式数据处理集群技术 这上千个节点是使用廉价PC搭建 将数据中心当做一台计算机 大数据的起源:“三架马车” 这三篇论文还依赖了两个基础设施:Chubby锁服务,Thrift序列化 MapReduce 演进路线: 编程方式:最初的MapReduce需要工程师 阅读全文
posted @ 2023-04-03 17:14 某某人8265 阅读(93) 评论(0) 推荐(0) 编辑
摘要: Thrift 格式解析 https://www.cnblogs.com/Forever-Kenlen-Ja/p/9649724.html 常用数据格式包括 CSV JSON XML,这些格式有缺点: CSV没有指定数据类型,如可能将数字开头的字符串无认为数字 使用文本存储会浪费空间 JSON XML 阅读全文
posted @ 2023-04-03 09:44 某某人8265 阅读(142) 评论(0) 推荐(1) 编辑
摘要: BigTable 定位是分布式表格系统。步入21世纪后,单机关系db无法支撑海量数据,GFS等分布式文件系统可低成本支持存储但效率低。分布式事务模型、共识算法和Percolator、Spanner等NewSQL到2010年前后才成熟。所以当时取各项目共性,在GFS上封装一层KV结构。技术对标HBas 阅读全文
posted @ 2023-03-31 16:40 某某人8265 阅读(143) 评论(0) 推荐(0) 编辑
摘要: MapReduce 使用MapReduce框架只要实现一个Map函数和一个Reduce函数,Map函数实现映射,接受一个key-value并转换为多个键值对;Reduce是一个化简函数,接收一个key和对应的vallue,然后组成一组新的value输出出去。 map(k1, v1) -> list( 阅读全文
posted @ 2023-03-30 18:56 某某人8265 阅读(75) 评论(0) 推荐(0) 编辑
摘要: GFS 重点是:高可用、可扩展性、透明 几个设计理念: 故障很常见,而非意外 存储内容为大文件,通常在几个GB 文件的修改方式是追加而非随机写,读多写少 增加系统灵活性,如放松对GFS的一致性要求 架构 GFS包括单节点Master、备用的shadow master、多个chunkserver、多个 阅读全文
posted @ 2023-03-30 16:14 某某人8265 阅读(340) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 20 下一页