2017年5月26日
摘要: 传统的ACID数据库,可扩展性上受到了巨大的挑战。而HBase这类系统,兼具可扩展性的同时,也提出了类SQL的接口。 HBase架构组成 HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooK 阅读全文
posted @ 2017-05-26 18:14 bitError 阅读(2834) 评论(0) 推荐(0) 编辑
摘要: HDFS是GFS的简化版,它同一时刻只允许一个用户对同一文件进行追加写操作(GFS允许并发写)。它适合存储大文件,并提供高吞吐量的顺序读/写访问。 它的早期版本两大问题,例如:单点失效和水平扩展不佳。针对这两个问题,在hadoop2.0提出统一的解决方案,即HA和NameNode联盟。 HDFS的设 阅读全文
posted @ 2017-05-26 18:13 bitError 阅读(378) 评论(0) 推荐(0) 编辑
摘要: MapReduce MapReduce的出现,用户只需要编写map和reduce的处理流程,就能完成完成一个分布式计算,简化了分布式任务编写的难度。MapReduce封装了数据切分,任务调度,错误处理,负载均衡。 Spark 和hadoop MapReduce对比,spark主要做了两个方面的优化: 阅读全文
posted @ 2017-05-26 18:12 bitError 阅读(584) 评论(0) 推荐(0) 编辑
摘要: shuffle流程 1. 输入分片(input split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身 2. map阶段:就是程序员编写 阅读全文
posted @ 2017-05-26 18:12 bitError 阅读(254) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper主要用来解决分布式应用场景中存在的一些问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置管理等。 它支持Standalone模式和分布式模式,在分布式模式下,能够为分布式应用提供高性能和可靠地协调服务,而且使用ZooKeeper可以大大简化分布式协调服务的实现,为开发分 阅读全文
posted @ 2017-05-26 18:10 bitError 阅读(3752) 评论(0) 推荐(0) 编辑
摘要: Spanner 是一个可扩展的、全球分布式的数据库,提供分布式ACID。 架构 universe:一个部署的实例成为universe,目前谷歌有3个,分别为开发/测试/线上 Zone:一个数据中心,相当于一个Hbase/Bigtable Universemaster: 监控这个universe里zo 阅读全文
posted @ 2017-05-26 18:08 bitError 阅读(948) 评论(0) 推荐(0) 编辑
摘要: Storm是一个分布式的、高容错的实时计算系统。Storm适用的场景: 1. Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中。 2. 由于Storm的处理组件都是分布式的,而且处理延迟都极低,所以可以Storm可以做为一个通用的分布式RPC框架来使用。(实时计算?) 阅读全文
posted @ 2017-05-26 18:07 bitError 阅读(9075) 评论(0) 推荐(1) 编辑
摘要: GreenPlum是一个底层是多台PostgreSQL分表分库的分布式数据库,它有如下特点 支持标准SQL,几乎所有PostgreSQL支持的SQL,greenplum都支持 支持ACID、分布式事务 支持上百台集群(这一点有点不好,hadoop可以万台) 系统架构 Master Host 处理用户 阅读全文
posted @ 2017-05-26 18:06 bitError 阅读(20687) 评论(0) 推荐(0) 编辑
摘要: Hive: 基于 Hadoop 的数据仓库工具 前言 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。 数据组织格式 下面是直接存储在HDFS上的数据组织方式 Tab 阅读全文
posted @ 2017-05-26 18:06 bitError 阅读(12217) 评论(1) 推荐(0) 编辑
摘要: 再Linux的世界里,万物皆文件,通过虚拟文件系统VFS,程序可以用标准的Linux系统调用对不同的文件系统,甚至不同介质上的文件系统进行读写操作。下面我们揭示Linux网络子系统的秘密 sockfs 在Linux上,和读写文件保持同一套接口是通过套接口伪文件系统sockfs来实现的。 sockfs 阅读全文
posted @ 2017-05-26 18:04 bitError 阅读(1707) 评论(0) 推荐(2) 编辑