数据仓库中数据处理和数据流转简要概述
摘要:具体数仓甚至数据治理方面可以参考下图 按照数仓分层思想,分为ods贴源层、dw主题层、mid维表层、dm集市层、app应该层 过程如下: 1 数据通过采集或同步落地基于HDFS存储的ods层 2 主题抽取确认 3 如果有此需求,构建基于主题数据的微聚合结果 4 构建维表层数据,如时间、地区、产品类别
阅读全文
hbase的管理相关看法
摘要:运维任务 regionserver添加/删除节点 master备份 1 添加新节点 复制hbase目录并进行配置文件修改(regionserver增加新节点)并保持配置文件在全集群一致,在新节点上启动相关进程如hbase-daemon.sh start regionserver命令 2 删除节点
阅读全文
hbase的集群搭建
摘要:hbase集群搭建之前首先完成hadoop集群搭建 环境搭建 wget http://mirror.bit.edu.cn/apache/hbase/1.x.y/hbase-1.x.y-bin.tar.gz #解压 tar -xzvf hbase-1.x.y-bin.tar.gz -C /usr/lo
阅读全文
hbase的架构
摘要:HBase中的存储包括HMaster、HRegionSever、HRegion、HLog、Store、MemStore、StoreFile、HFile等角色构成,具体如下HMaster的作用 1.为HRegionServer分配HRegion 2.负责HRegionServer的负载均衡 3.发现失
阅读全文
如果让你处理hbase 怎么保证数据的安全性可靠性 不需要具体的设置 要一套方案
摘要:有关数据安全及可靠我们认为大体上分为存储安全和使用安全 1 数据存储安全 hbase是基于hdfs的一种数据存储解决方案,所以有关数据的安全性可靠性可以利用hdfs自身的副本机制保障。另外原生的hbase(1.x)并没有提供数据备份机制,目前还是依赖于企业自身的研发保障,如阿里的云hbase进行数据
阅读全文
架构方式
摘要:架构方式 inmon架构 自上而下的开发模式,从多个数据源出发,根据需求将不同数据源的数据经过ETL过程获取到各个主题需求的数据集成到数仓中,完成了数据治理后再进行统计业务,将统计结果存入数据集市。 kimball架构 自下而上的开发模式,往往已经存在某个关系明确的业务数据库,架构师需要根据数据库中
阅读全文
数据仓库搭建流程及数据模型
摘要:建模流程 业务建模 根据业务部门进行划分,理清部门之间的关系,然后将各个部门的具体业务程序化,与业务部门开会协商出需求的指标、保存年限、维度等等。总体来讲,就是要知道他们需要哪些指标以及他们能提供哪些数据。业务建模的时间最长,而且与公司实际的业务环境息息相关,因此在这里需要根据实际生产环境和业务需求
阅读全文
数据仓库概念
摘要:数仓是一个面向主题的、集成的、稳定的、时变的,存储历史数据的仓库。 面向主题的:数仓中的数据按照主题进行存储,每个主题都是决策层分析的一个角度; 集成的:不同来源的数据会统一整合后存入数仓中; 稳定的:数据一旦进入仓库后不会轻易发生改变,就算数据本身需要变化也轻易不会改动原数据,会根据分析需求考虑数
阅读全文