(原创)大数据 数仓基本概念梳理
一、大数据的基本概念
其实到目前为止对于大数据的数据量的多少还是一个可变定义,主观定义,即并不是要大于一个特定数据的TB,才叫大数据,包括在做的项目中,有的客户因场景需求即使几TB的数据仍然需要建立大数据体系来提供价值。所以这就体现了数据的属性,如行业属性,历史属性,价值属性等等。
二、大数据的结构
大数据简单来说一般可分为3层结构
1, 数据采集层
2, 数据计算层
3, 数据应用层
每三层又可细分为若干个动作
1.数据采集层可分为:
数据来源层(掌握数据的来源如日志,数据库,图片等等)
数据传输层(负责数据的传输,抽取等当前主流的框架有flume等)
数据存储层(将数据存储在文件数据库或HBase等)
2.数据计算层可分为:
资源管理层(提升集群利用率、资源统一管理和数据共享,主流工具有YARN等等)
数据分析层(解决海量数据的离线或实时运算,主流框架有MapReduce离线计算,Storm离线计算 )
任务调度层(一个能把多个MR作业组合为一个逻辑工作单元(一个工作流),从而自动完成任务调用的工具)
2. 数据应用层可分为:
为多种大数据应用直接提供数据源
(只是找了些主流的组件,可根据不同业务场景替换)
三、数据仓库
1、数据仓库是什么?
数据仓库是大数据的底座,这里是指除了物理服务器之外的数据底座。
数据仓库是一个面向主题的,集成的,相对稳定的,反应历史的数据集合,
2、数据仓库的价值及意义:
一,支持管理决策,面向分析型数据处理,不同于企业现有的交易型,操作型数据库
二,数据仓库是对多个异构数据源的有效集成,并按照主题进行重组
三,数据仓库是把信息及时交给所需要的这些信息的使用者,使之作出改善其业务经营决策,发挥意义和价值,信息重组是数据仓库的根本任务
四、数据仓库分层(五层):
ODS:原始数据层-直接存放原数据,不做任何处理,如日志,操作记录,事件记录等
DWD:明细数据层-对原始数据进行清洗如(去空,超过极限的数据,脱敏等)
DWS :数据服务层-以数据明细层为基础,按天进行轻度汇总(每天的数据量,销售量等)
DWT:主题数据层 以DWS数据服务层为基础,按主题进行汇总,获得每个主题的全量数据表
ADS:(专题库)数据应用层面向实际的数据需求,为各种统计表报提供数据
五、构建(建模)思想:
1,原始数据层-备份-追溯-分区,压缩
2,数据明细层-构建维度模型(星形模型)
3,服务数据层-服务于主题数据层(DWT)的主题宽表,该表字段是站在不同的视角去看事实表
4,主题层(主题宽表) 站在维度表的角度去看事实表,重点关注事实表度量的累计值。首次时间,末次时间如(首次下单时间,末次下单时间,累计下单金额,累计下单量等等)
5,数据应用层-对个主题的指标分析,提取