摘要:
1.前言 Java作为目前最通用的编程语言之一,而Java底层的JVM是Java编程语言的核心。不管是在企业应用系统,移动终端还是大数据领域都有很大的市场占有率。Java的扁平快受到越来越多的开发青睐,但与C/C++相比,Java语言也有些不足的地方,比如在垃圾回收机制上。什么叫垃圾回收,简单来如, 阅读全文
摘要:
1. 摘要 对于大数据而言,数据仓库承载着整个企业的全业务的数据。早期数仓在关系型数据如Oracle,MySql上。到大数据时代,基于hadoop生态的大数据架构,数仓基本上都是基于hive的数仓。对于很多大数据开发者而言,特别是早期,很多开发者认为hive数仓就是和业务相关,隐射Hdfs数据文件的 阅读全文
摘要:
在clickhouse使用过程中,针对数据量和查询场景,MergeTree是最常用也是较为合适的表引擎。针对特定的业务,MergeTree的子引擎可以针对不同的业务而定,但都基于MergeTree引擎 1. ReplacingMergeTree 说明: 该引擎和MergeTree的不同之处在于它会删 阅读全文
摘要:
1. 集群节点及服务分配 说明: 1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步),一个数据分片,一个数据备份,为了确保宕机数据一致性,数据分片和数据备份不能同一节点,比如gawh201上的shard不能备份在gawh201的replica,如果这样做,当gaw 阅读全文
摘要:
1.集群节点信息 10.12.110.201 ch201 10.12.110.202 ch202 10.12.110.203 ch203 2. 搭建一个zookeeper集群 在这三个节点搭建一个zookeeper集群(如果搭建可以直接忽略这一步),先在一个节点上根据以下配置 2.1. 下载 zoo 阅读全文
摘要:
1. 集群节点规划与说明 说明: Kylin节点角色有三种: 2. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件 3. 在已下载解压好的目录下 在rzx1节点下: 说明:开发测试环境目前只安装简易版,该配置文件配置参数非常多,实际生产环境需要根据实际情况来配置 4. 在r 阅读全文
摘要:
hbase 2.0.4集群部署 1. 集群节点规划: 前提:搭建好hadoop集群 2. 在rzx1节点上配置执行环境的JAVA_HOME和是否利用自带Zookeeper 在hbase目录下: 其他配置参数在配置开发测试集群使用默认,生产环境根据数据量而定配置 3. 在rzx1节点上配置hbase在 阅读全文
摘要:
1.写在前面 Spark是专为大规模数据处理而设计的快速通用的计算引擎,在计算能力上优于MapReduce,被誉为第二代大数据计算框架引擎。Spark采用的是内存计算方式。Spark的四大核心是Spark RDD(Spark core),SparkSQL,Spark Streaming,Spark 阅读全文
摘要:
1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法。第一种是利用org.apache.spark.sql.types.StructType和org.apache.spark.sql.types.DataTypes来映射拆分RDD的值;第二种方法是利用r 阅读全文
摘要:
1. 查看所有topic 2. 创建tooic及topic的partitioner 说明:在集群模式中,partitioner可以根据集群节点的磁盘空间大小和kafka server这个配置`log dir=/data/kafka log,/data01/kafka log,/data02/kafk 阅读全文