(原创)大数据 数仓基本概念梳理

 

一、大数据的基本概念

  其实到目前为止对于大数据的数据量的多少还是一个可变定义,主观定义,即并不是要大于一个特定数据的TB,才叫大数据,包括在做的项目中,有的客户因场景需求即使几TB的数据仍然需要建立大数据体系来提供价值。所以这就体现了数据的属性,如行业属性,历史属性,价值属性等等。

二、大数据的结构

大数据简单来说一般可分为3层结构

1,  数据采集层

2,  数据计算层 

3,  数据应用层

 每三层又可细分为若干个动作

1.数据采集层可分为:

  数据来源层(掌握数据的来源如日志,数据库,图片等等)

  数据传输层(负责数据的传输,抽取等当前主流的框架有flume等)

  数据存储层(将数据存储在文件数据库或HBase等)

2.数据计算层可分为:

  资源管理层(提升集群利用率、资源统一管理和数据共享,主流工具有YARN等等)

  数据分析层(解决海量数据的离线或实时运算,主流框架有MapReduce离线计算,Storm离线计算 )

  任务调度层(一个能把多个MR作业组合为一个逻辑工作单元(一个工作流),从而自动完成任务调用的工具)

2. 数据应用层可分为:

  为多种大数据应用直接提供数据源  

 (只是找了些主流的组件,可根据不同业务场景替换)

 

三、数据仓库

1、数据仓库是什么?

  数据仓库是大数据的底座,这里是指除了物理服务器之外的数据底座。

  数据仓库是一个面向主题的,集成的,相对稳定的,反应历史的数据集合,

2、数据仓库的价值及意义:

一,支持管理决策,面向分析型数据处理,不同于企业现有的交易型,操作型数据库

二,数据仓库是对多个异构数据源的有效集成,并按照主题进行重组

三,数据仓库是把信息及时交给所需要的这些信息的使用者,使之作出改善其业务经营决策,发挥意义和价值,信息重组是数据仓库的根本任务

四、数据仓库分层(五层):

ODS:原始数据层-直接存放原数据,不做任何处理,如日志,操作记录,事件记录等

DWD:明细数据层-对原始数据进行清洗如(去空,超过极限的数据,脱敏等)

DWS :数据服务层-以数据明细层为基础,按天进行轻度汇总(每天的数据量,销售量等)

DWT:主题数据层  以DWS数据服务层为基础,按主题进行汇总,获得每个主题的全量数据表

ADS:(专题库)数据应用层面向实际的数据需求,为各种统计表报提供数据

 五、构建(建模)思想:

1,原始数据层-备份-追溯-分区,压缩

2,数据明细层-构建维度模型(星形模型)

3,服务数据层-服务于主题数据层(DWT)的主题宽表,该表字段是站在不同的视角去看事实表

4,主题层(主题宽表) 站在维度表的角度去看事实表,重点关注事实表度量的累计值。首次时间,末次时间如(首次下单时间,末次下单时间,累计下单金额,累计下单量等等)

5,数据应用层-对个主题的指标分析,提取

posted @ 2021-12-15 20:22  采采卷耳&不盈倾筐  阅读(356)  评论(0编辑  收藏  举报