摘要: 转自:https://blog.csdn.net/xinzhi8/article/details/71455883 操作: 其中一个表较小,但是key集中 group by 维度过小,某值的数量过多 原因: 1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句 阅读全文
posted @ 2018-12-10 23:46 dummyly 阅读(6571) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜:就是大量的相同key被partition分配到一个分区里,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长, 这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的re 阅读全文
posted @ 2018-12-10 23:22 dummyly 阅读(5301) 评论(0) 推荐(0) 编辑
摘要: Zookeeper概念简介: Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 A、zookeeper是为别的分布式程序服务的 B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) C、Zookeeper所提供的服务涵盖:主从协调、服 阅读全文
posted @ 2018-12-10 22:59 dummyly 阅读(265) 评论(0) 推荐(0) 编辑
摘要: Hbase Shell操作 创建表:create ‘table1’, ‘tab1’, ‘tab2’ 回车即可 说明:创建表table1,列族2个,分别为tab1和tab2 列出所有表:list 查看表的构造:describe "table1" 插入数据:put ‘table1’, ‘rk-00001 阅读全文
posted @ 2018-12-10 22:19 dummyly 阅读(206) 评论(0) 推荐(0) 编辑
摘要: Rowkey设计 Region: 基于RowKey的分区,可理解成MySQL的水平切分。 每个Region Server就是Hadoop集群中一台机器上的一个进程。 比如我们的有1-300号的RowKey, 那么1-100号RowKey的行被分配到Region Server 1上,同样,101-20 阅读全文
posted @ 2018-12-10 21:53 dummyly 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 写操作流程 (1) Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。 (2) 数据被写入Region的MemStore,直到MemStore达到预设阈值。 (3) MemStore中的数据被Flush成一个StoreFile。 (4) 随着 阅读全文
posted @ 2018-12-10 21:48 dummyly 阅读(1540) 评论(0) 推荐(0) 编辑
摘要: HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组 阅读全文
posted @ 2018-12-10 21:44 dummyly 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 物理模型 每个column family存储在HDFS上的一个单独文件中,空值不会被保存。 Key 和 Version number在每个column family中均有一份; HBase为每个值维护了多级索引,即:<key, columnfamily, columnname, timestamp> 阅读全文
posted @ 2018-12-10 21:43 dummyly 阅读(1091) 评论(0) 推荐(0) 编辑
摘要: Hbase是什么 HBase是一个分布式的、面向列的开源数据库,是一个NoSQL数据库,它是基于列的而不是基于行的模式, 是一个高可用、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 上图描述了Hadoop EcoSystem中的各层 阅读全文
posted @ 2018-12-10 21:00 dummyly 阅读(203) 评论(0) 推荐(0) 编辑
摘要: HDFS功能: 将大文件、大批量文件,分布式存放在大量服务器上。 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重要特性如下: (1)HDFS中的文件在物理上是分块存储(block),块 阅读全文
posted @ 2018-12-10 20:41 dummyly 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive架构图 Jobtracker是hadoop1.x中的组件,它的功能相当于: Resourcemanager+AppMaster TaskTracker 相当于: 阅读全文
posted @ 2018-12-10 17:39 dummyly 阅读(359) 评论(0) 推荐(0) 编辑
摘要: Kafka写入流程: 1.producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader 2. producer 将消息发送给该 leader 3. leader 将消息写入本地 log 4. followers 从 lea 阅读全文
posted @ 2018-12-10 17:25 dummyly 阅读(3640) 评论(0) 推荐(0) 编辑
摘要: Kafka消费分组,消息消费原理 同一个消费组里的消费者不能消费同一个分区,不同消费组的消费组可以消费同一个分区 Kafka分区分配策略 在 Kafka 内部存在两种默认的分区分配策略:Range 和 RoundRobin。当以下事件发生时,Kafka 将会进行一次分区分配: 同一个 Consume 阅读全文
posted @ 2018-12-10 16:55 dummyly 阅读(3022) 评论(0) 推荐(0) 编辑
摘要: Kafka安装: 下载kafka_2.10-0.8.2.1 1.关闭防火墙 2.修改配置文件 server.properties broker.id=1log.dirs= /usr/kafka_2.10-0.8.2.1/data //最后不要写logzookeeper.connect=master: 阅读全文
posted @ 2018-12-10 12:16 dummyly 阅读(1106) 评论(0) 推荐(0) 编辑