摘要: 物理模型 每个column family存储在HDFS上的一个单独文件中,空值不会被保存。 Key 和 Version number在每个column family中均有一份; HBase为每个值维护了多级索引,即:<key, columnfamily, columnname, timestamp> 阅读全文
posted @ 2018-12-10 21:43 dummyly 阅读(1091) 评论(0) 推荐(0) 编辑
摘要: Hbase是什么 HBase是一个分布式的、面向列的开源数据库,是一个NoSQL数据库,它是基于列的而不是基于行的模式, 是一个高可用、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 上图描述了Hadoop EcoSystem中的各层 阅读全文
posted @ 2018-12-10 21:00 dummyly 阅读(203) 评论(0) 推荐(0) 编辑
摘要: HDFS功能: 将大文件、大批量文件,分布式存放在大量服务器上。 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重要特性如下: (1)HDFS中的文件在物理上是分块存储(block),块 阅读全文
posted @ 2018-12-10 20:41 dummyly 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive架构图 Jobtracker是hadoop1.x中的组件,它的功能相当于: Resourcemanager+AppMaster TaskTracker 相当于: 阅读全文
posted @ 2018-12-10 17:39 dummyly 阅读(359) 评论(0) 推荐(0) 编辑
摘要: Kafka写入流程: 1.producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader 2. producer 将消息发送给该 leader 3. leader 将消息写入本地 log 4. followers 从 lea 阅读全文
posted @ 2018-12-10 17:25 dummyly 阅读(3640) 评论(0) 推荐(0) 编辑
摘要: Kafka消费分组,消息消费原理 同一个消费组里的消费者不能消费同一个分区,不同消费组的消费组可以消费同一个分区 Kafka分区分配策略 在 Kafka 内部存在两种默认的分区分配策略:Range 和 RoundRobin。当以下事件发生时,Kafka 将会进行一次分区分配: 同一个 Consume 阅读全文
posted @ 2018-12-10 16:55 dummyly 阅读(3022) 评论(0) 推荐(0) 编辑
摘要: Kafka安装: 下载kafka_2.10-0.8.2.1 1.关闭防火墙 2.修改配置文件 server.properties broker.id=1log.dirs= /usr/kafka_2.10-0.8.2.1/data //最后不要写logzookeeper.connect=master: 阅读全文
posted @ 2018-12-10 12:16 dummyly 阅读(1106) 评论(0) 推荐(0) 编辑
摘要: HDFS数据存储 HDFS client上传数据到HDFS时,首先,在本地缓存数据,当数据达到一个block大小时。请求NameNode分配一个block。 NameNode会把block所在的DataNode的地址告诉HDFS client。 HDFS client会直接和DataNode通信,把 阅读全文
posted @ 2018-12-06 23:10 dummyly 阅读(6051) 评论(0) 推荐(0) 编辑
摘要: 开发工具:IDEA mapreduce实现思路: Map阶段: a) 从HDFS的源数据文件中逐行读取数据 b) 将每一行数据切分出单词 c) 为每一个单词构造一个键值对(单词,1) d) 将键值对发送给reduce Reduce阶段: a) 接收map阶段输出的单词键值对 b) 将相同单词的键值对 阅读全文
posted @ 2018-12-06 18:12 dummyly 阅读(2820) 评论(0) 推荐(0) 编辑
摘要: Redis数据结构图: Strings型 <String key,String value>: keys * 查看所有key get 获取key的value值 append 向key对应的value追加内容 Exists 判断key是否存在,存在返回1,不存在返回0 Set 当key存在会把key原 阅读全文
posted @ 2018-12-06 16:05 dummyly 阅读(149) 评论(0) 推荐(0) 编辑