摘要:
作者:AceCream佳 链接:https://www.jianshu.com/p/1ed5307b29be 都知道数据仓库现在一般来说是Hive和kafka,数据平台目前还使用的是hive,但是hive的查询是很慢的,所以为了效率我们引入了Kylin,Kylin并没有大数据存储功能,它所做的只是将 阅读全文
摘要:
1. Memstore - 转载:https://www.cnblogs.com/shitouer/archive/2013/02/05/configuring-hbase-memstore-what-you-should-know.html 当RegionServer(RS)收到写请求的时候(wr 阅读全文
摘要:
1.简介 Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数 阅读全文
摘要:
基于DNS的负载均衡 转载:https://www.cnblogs.com/arjenlee/p/9262737.html DNS(Domain Name System,域名系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的I 阅读全文
摘要:
阶段定义 MapTask: map sort map: Mapper.map()中将输出的key-value写出之前 sort: Mapper.map()中将输出的key-value写出之后 sort ①当在map()将输出的key-value写出后,记录是会被Partitioner计算一个分区号 阅读全文
摘要:
二、MR的核心编程思想 1.概念 Job(作业) : 一个MR程序称为一个Job MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程为 MRAppMaster。 负责Job中执行状态的监控,容错,和RM申请资源,提交Task等! Task(任务): Task 阅读全文
摘要:
HiveSQL实现MR WordCount 数据 A A B A B C A B C D A B C D E MR处理过程 splite map shuffle reduce Hive处理过程 1、建表-行读取功能 create external table wc ( line string ) l 阅读全文
摘要:
图片转载:https://www.cnblogs.com/share23/p/10161857.html 实例分析:https://www.cnblogs.com/frankdeng/p/9308654.html Hive触发MR:https://www.cnblogs.com/staryea/p/ 阅读全文
摘要:
引入 非Java程序员利用SQL进行MR任务处理 简介 数据仓库:普通数据库做交互式查询;数据仓库离线数据分析、不支持实时性;数据仓库用ETL把不同数据源数据进行统一存储;时间拉链:仓库里数据不允许删除、修改; 解释器、编译器、优化器 元数据存储在关系型数据库中(不能存储在HDFS中,因为HDFS皆 阅读全文
摘要:
原计划在介绍完ZK Client之后就着手ZK Server的介绍,但是发现ZK Server所包含的内容实在太多,并不是简简单单一篇Blog就能搞定的。于是决定从基础搞起比较好。 那么ZK Server最基础的东西是什么呢?我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server 阅读全文