dummyly

2018年12月10日

摘要：物理模型每个column family存储在HDFS上的一个单独文件中，空值不会被保存。 Key 和 Version number在每个column family中均有一份； HBase为每个值维护了多级索引，即：<key, columnfamily, columnname, timestamp> 阅读全文

posted @ 2018-12-10 21:43 dummyly 阅读(1147) 评论(0) 推荐(0)

Hbase介绍

摘要： Hbase是什么 HBase是一个分布式的、面向列的开源数据库，是一个NoSQL数据库，它是基于列的而不是基于行的模式，是一个高可用、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群上图描述了Hadoop EcoSystem中的各层阅读全文

posted @ 2018-12-10 21:00 dummyly 阅读(223) 评论(0) 推荐(0)

HDFS原理

摘要： HDFS功能：将大文件、大批量文件，分布式存放在大量服务器上。首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；重要特性如下：（1）HDFS中的文件在物理上是分块存储（block），块阅读全文

posted @ 2018-12-10 20:41 dummyly 阅读(184) 评论(0) 推荐(0)

hive原理

摘要：什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive架构图 Jobtracker是hadoop1.x中的组件，它的功能相当于： Resourcemanager+AppMaster TaskTracker 相当于：阅读全文

posted @ 2018-12-10 17:39 dummyly 阅读(390) 评论(0) 推荐(0)

Kafka写入流程和副本策略

摘要： Kafka写入流程： 1.producer 先从 zookeeper 的 "/brokers/.../state" 节点找到该 partition 的 leader 2. producer 将消息发送给该 leader 3. leader 将消息写入本地 log 4. followers 从 lea 阅读全文

posted @ 2018-12-10 17:25 dummyly 阅读(3762) 评论(0) 推荐(0)

Kafka消费分组和分区分配策略

摘要： Kafka消费分组，消息消费原理同一个消费组里的消费者不能消费同一个分区，不同消费组的消费组可以消费同一个分区 Kafka分区分配策略在 Kafka 内部存在两种默认的分区分配策略：Range 和 RoundRobin。当以下事件发生时，Kafka 将会进行一次分区分配：同一个 Consume 阅读全文

posted @ 2018-12-10 16:55 dummyly 阅读(3148) 评论(0) 推荐(0)

Kafka安装和常用操作命令

摘要： Kafka安装：下载kafka_2.10-0.8.2.1 1.关闭防火墙 2.修改配置文件 server.properties broker.id=1log.dirs= /usr/kafka_2.10-0.8.2.1/data //最后不要写logzookeeper.connect=master: 阅读全文

posted @ 2018-12-10 12:16 dummyly 阅读(1123) 评论(0) 推荐(0)

2018年12月6日

HDFS写数据和读数据流程

摘要： HDFS数据存储 HDFS client上传数据到HDFS时，首先，在本地缓存数据，当数据达到一个block大小时。请求NameNode分配一个block。 NameNode会把block所在的DataNode的地址告诉HDFS client。 HDFS client会直接和DataNode通信，把阅读全文

posted @ 2018-12-06 23:10 dummyly 阅读(6106) 评论(0) 推荐(0)

MapReduce实现单词统计

摘要：开发工具：IDEA mapreduce实现思路： Map阶段： a) 从HDFS的源数据文件中逐行读取数据 b) 将每一行数据切分出单词 c) 为每一个单词构造一个键值对(单词，1) d) 将键值对发送给reduce Reduce阶段： a) 接收map阶段输出的单词键值对 b) 将相同单词的键值对阅读全文

posted @ 2018-12-06 18:12 dummyly 阅读(2850) 评论(0) 推荐(0)

Redis数据结构以及Strings型操作

摘要： Redis数据结构图： Strings型 <String key,String value>： keys * 查看所有key get 获取key的value值 append 向key对应的value追加内容 Exists 判断key是否存在，存在返回1，不存在返回0 Set 当key存在会把key原阅读全文

posted @ 2018-12-06 16:05 dummyly 阅读(158) 评论(0) 推荐(0)

公告