摘要:
物理模型 每个column family存储在HDFS上的一个单独文件中,空值不会被保存。 Key 和 Version number在每个column family中均有一份; HBase为每个值维护了多级索引,即:<key, columnfamily, columnname, timestamp> 阅读全文
摘要:
Hbase是什么 HBase是一个分布式的、面向列的开源数据库,是一个NoSQL数据库,它是基于列的而不是基于行的模式, 是一个高可用、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 上图描述了Hadoop EcoSystem中的各层 阅读全文
摘要:
HDFS功能: 将大文件、大批量文件,分布式存放在大量服务器上。 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重要特性如下: (1)HDFS中的文件在物理上是分块存储(block),块 阅读全文
摘要:
什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive架构图 Jobtracker是hadoop1.x中的组件,它的功能相当于: Resourcemanager+AppMaster TaskTracker 相当于: 阅读全文
摘要:
Kafka写入流程: 1.producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader 2. producer 将消息发送给该 leader 3. leader 将消息写入本地 log 4. followers 从 lea 阅读全文
摘要:
Kafka消费分组,消息消费原理 同一个消费组里的消费者不能消费同一个分区,不同消费组的消费组可以消费同一个分区 Kafka分区分配策略 在 Kafka 内部存在两种默认的分区分配策略:Range 和 RoundRobin。当以下事件发生时,Kafka 将会进行一次分区分配: 同一个 Consume 阅读全文
摘要:
Kafka安装: 下载kafka_2.10-0.8.2.1 1.关闭防火墙 2.修改配置文件 server.properties broker.id=1log.dirs= /usr/kafka_2.10-0.8.2.1/data //最后不要写logzookeeper.connect=master: 阅读全文