摘要:
1、MapReduce是一个经典的分布式批处理计算引擎,被广泛应用于搜索引擎索引构建、大规模数据处理等场景中,具有易于编程、良好的扩展性与容错性以及高吞吐率等特点。它主要由两部分组成:编程模型和运行时环境。其中,编程模型为用户提供了非常易用的编程接口,用户只需像编写串行程序一样实现几个简单的函数即可 阅读全文
摘要:
1、为了实现一个通用的分布式协调服务,避免每个分布式系统从头实现造成不必要的工作冗余,Hadoop生态系统提供了ZooKeeper。ZooKeeper通过引入类似于文件系统的层级命名空间,并在此基础上提供了一套简单易用的原语,能够帮助用户轻易地实现前面提到leader选举、分布式锁、分布式队列等功能 阅读全文
摘要:
Kudu是一个强类型的纯列式存储数据库。类似于HBase,Kudu的表是由很多数据子集构成的,表被水平拆分成多个Tablet(类似于HBase的Region),这些Tablet被散布到不同机器上,以实现分布式的存储和读写。Kudu有两种类型的组件:Master Server和Tablet Serve 阅读全文
摘要:
1、HBase数据模型:逻辑数据模型和物理数据存储,其中逻辑数据模型是用户从数据库所看到的模型,直接与HBase数据建模相关;物理数据模型是面向计算机物理表示的模型,描述了HBase数据在存储介质(包括内存和磁盘)上的组织结构。 2、HBase基本架构 为了将数据表分布到集群中以提供并行读写服务,H 阅读全文