摘要: 1. 摘要 对于大数据而言,数据仓库承载着整个企业的全业务的数据。早期数仓在关系型数据如Oracle,MySql上。到大数据时代,基于hadoop生态的大数据架构,数仓基本上都是基于hive的数仓。对于很多大数据开发者而言,特别是早期,很多开发者认为hive数仓就是和业务相关,隐射Hdfs数据文件的 阅读全文
posted @ 2019-12-24 17:31 技术即艺术 阅读(7408) 评论(0) 推荐(0) 编辑
摘要: 在clickhouse使用过程中,针对数据量和查询场景,MergeTree是最常用也是较为合适的表引擎。针对特定的业务,MergeTree的子引擎可以针对不同的业务而定,但都基于MergeTree引擎 1. ReplacingMergeTree 说明: 该引擎和MergeTree的不同之处在于它会删 阅读全文
posted @ 2019-12-16 11:33 技术即艺术 阅读(6949) 评论(1) 推荐(2) 编辑
摘要: 1. 集群节点及服务分配 说明: 1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步),一个数据分片,一个数据备份,为了确保宕机数据一致性,数据分片和数据备份不能同一节点,比如gawh201上的shard不能备份在gawh201的replica,如果这样做,当gaw 阅读全文
posted @ 2019-12-10 12:42 技术即艺术 阅读(5330) 评论(6) 推荐(1) 编辑
摘要: 1.集群节点信息 10.12.110.201 ch201 10.12.110.202 ch202 10.12.110.203 ch203 2. 搭建一个zookeeper集群 在这三个节点搭建一个zookeeper集群(如果搭建可以直接忽略这一步),先在一个节点上根据以下配置 2.1. 下载 zoo 阅读全文
posted @ 2019-12-05 19:01 技术即艺术 阅读(38154) 评论(5) 推荐(3) 编辑
摘要: 1. 集群节点规划与说明 说明: Kylin节点角色有三种: 2. Kylin依赖的其他大数据组件非常多,下列列表是安装kylin需要的组件 3. 在已下载解压好的目录下 在rzx1节点下: 说明:开发测试环境目前只安装简易版,该配置文件配置参数非常多,实际生产环境需要根据实际情况来配置 4. 在r 阅读全文
posted @ 2019-11-01 18:37 技术即艺术 阅读(1458) 评论(0) 推荐(0) 编辑
摘要: hbase 2.0.4集群部署 1. 集群节点规划: 前提:搭建好hadoop集群 2. 在rzx1节点上配置执行环境的JAVA_HOME和是否利用自带Zookeeper 在hbase目录下: 其他配置参数在配置开发测试集群使用默认,生产环境根据数据量而定配置 3. 在rzx1节点上配置hbase在 阅读全文
posted @ 2019-11-01 18:27 技术即艺术 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 1.写在前面 Spark是专为大规模数据处理而设计的快速通用的计算引擎,在计算能力上优于MapReduce,被誉为第二代大数据计算框架引擎。Spark采用的是内存计算方式。Spark的四大核心是Spark RDD(Spark core),SparkSQL,Spark Streaming,Spark 阅读全文
posted @ 2019-10-15 16:20 技术即艺术 阅读(12470) 评论(0) 推荐(0) 编辑
摘要: 1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法。第一种是利用org.apache.spark.sql.types.StructType和org.apache.spark.sql.types.DataTypes来映射拆分RDD的值;第二种方法是利用r 阅读全文
posted @ 2019-06-18 16:25 技术即艺术 阅读(7663) 评论(0) 推荐(0) 编辑
摘要: 1. 查看所有topic 2. 创建tooic及topic的partitioner 说明:在集群模式中,partitioner可以根据集群节点的磁盘空间大小和kafka server这个配置`log dir=/data/kafka log,/data01/kafka log,/data02/kafk 阅读全文
posted @ 2019-04-21 19:41 技术即艺术 阅读(1698) 评论(0) 推荐(0) 编辑
摘要: ####1. 写在前面 flume-ng高可用长在大数据处理环节第一个出现,对于处理日志文件有很好的作用,本篇博客将详细介绍flume-ng的高可用负载均衡搭建 ####2. flume-ng高可用负载均衡描述 在一般情况下,Flume-ng高可用采用server和client模式,client主要 阅读全文
posted @ 2019-04-19 22:41 技术即艺术 阅读(987) 评论(0) 推荐(0) 编辑