2018 年 12月 10 日随笔档案 - dummyly

2018年12月10日

摘要：转自：https://blog.csdn.net/xinzhi8/article/details/71455883 操作：其中一个表较小，但是key集中 group by 维度过小，某值的数量过多原因： 1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句阅读全文

posted @ 2018-12-10 23:46 dummyly 阅读(6618) 评论(0) 推荐(0) 编辑

Hadoop数据倾斜及解决办法

摘要：数据倾斜：就是大量的相同key被partition分配到一个分区里，map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的re 阅读全文

posted @ 2018-12-10 23:22 dummyly 阅读(5314) 评论(0) 推荐(0) 编辑

Zookeeper原理

摘要： Zookeeper概念简介： Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务 A、zookeeper是为别的分布式程序服务的 B、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务） C、Zookeeper所提供的服务涵盖：主从协调、服阅读全文

posted @ 2018-12-10 22:59 dummyly 阅读(266) 评论(0) 推荐(0) 编辑

Hbase的shell操作

摘要： Hbase Shell操作创建表：create ‘table1’, ‘tab1’, ‘tab2’ 回车即可说明：创建表table1,列族2个，分别为tab1和tab2 列出所有表：list 查看表的构造：describe "table1" 插入数据：put ‘table1’, ‘rk-00001 阅读全文

posted @ 2018-12-10 22:19 dummyly 阅读(208) 评论(0) 推荐(0) 编辑

Hbase表格设计

摘要： Rowkey设计 Region: 基于RowKey的分区，可理解成MySQL的水平切分。每个Region Server就是Hadoop集群中一台机器上的一个进程。比如我们的有1-300号的RowKey, 那么1-100号RowKey的行被分配到Region Server 1上，同样，101-20 阅读全文

posted @ 2018-12-10 21:53 dummyly 阅读(240) 评论(0) 推荐(0) 编辑

Hbase读写流程和寻址机制

摘要：写操作流程 (1) Client通过Zookeeper的调度，向RegionServer发出写数据请求，在Region中写数据。 (2) 数据被写入Region的MemStore，直到MemStore达到预设阈值。 (3) MemStore中的数据被Flush成一个StoreFile。 (4) 随着阅读全文

posted @ 2018-12-10 21:48 dummyly 阅读(1555) 评论(0) 推荐(0) 编辑

Hbase架构

摘要： HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列，一个或多个列组阅读全文

posted @ 2018-12-10 21:44 dummyly 阅读(106) 评论(0) 推荐(0) 编辑

Hbase物理存储

摘要：物理模型每个column family存储在HDFS上的一个单独文件中，空值不会被保存。 Key 和 Version number在每个column family中均有一份； HBase为每个值维护了多级索引，即：<key, columnfamily, columnname, timestamp> 阅读全文

posted @ 2018-12-10 21:43 dummyly 阅读(1103) 评论(0) 推荐(0) 编辑

Hbase介绍

摘要： Hbase是什么 HBase是一个分布式的、面向列的开源数据库，是一个NoSQL数据库，它是基于列的而不是基于行的模式，是一个高可用、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群上图描述了Hadoop EcoSystem中的各层阅读全文

posted @ 2018-12-10 21:00 dummyly 阅读(205) 评论(0) 推荐(0) 编辑

HDFS原理

摘要： HDFS功能：将大文件、大批量文件，分布式存放在大量服务器上。首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；重要特性如下：（1）HDFS中的文件在物理上是分块存储（block），块阅读全文

posted @ 2018-12-10 20:41 dummyly 阅读(177) 评论(0) 推荐(0) 编辑

hive原理

摘要：什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive架构图 Jobtracker是hadoop1.x中的组件，它的功能相当于： Resourcemanager+AppMaster TaskTracker 相当于：阅读全文

posted @ 2018-12-10 17:39 dummyly 阅读(360) 评论(0) 推荐(0) 编辑

Kafka写入流程和副本策略

摘要： Kafka写入流程： 1.producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader 2. producer 将消息发送给该 leader 3. leader 将消息写入本地 log 4. followers 从 lea 阅读全文

posted @ 2018-12-10 17:25 dummyly 阅读(3678) 评论(0) 推荐(0) 编辑

Kafka消费分组和分区分配策略

摘要： Kafka消费分组，消息消费原理同一个消费组里的消费者不能消费同一个分区，不同消费组的消费组可以消费同一个分区 Kafka分区分配策略在 Kafka 内部存在两种默认的分区分配策略：Range 和 RoundRobin。当以下事件发生时，Kafka 将会进行一次分区分配：同一个 Consume 阅读全文

posted @ 2018-12-10 16:55 dummyly 阅读(3069) 评论(0) 推荐(0) 编辑

Kafka安装和常用操作命令

摘要： Kafka安装：下载kafka_2.10-0.8.2.1 1.关闭防火墙 2.修改配置文件 server.properties broker.id=1log.dirs= /usr/kafka_2.10-0.8.2.1/data //最后不要写logzookeeper.connect=master: 阅读全文

posted @ 2018-12-10 12:16 dummyly 阅读(1109) 评论(0) 推荐(0) 编辑

dummyly

公告