什么是数据仓库?什么是数据湖?什么是智能湖仓? 大数据之小白了解篇(一)

再讲这些之前 先了解一下为什么会有数据库?

  • 作为程序员,我们写的大多数商业项目,往往都需要用到大量的数据。计算机的内存,可以实现数据的快速存储和访问。
    但是,内存的空间是有限的,也无法长期保存有用的数据。对于那些大量的,需要长期使用的数据,我们需要对它们进行持久的、规范化的存储,于是就有了数据库(DataBase)
  • 数据库有很多种,包括像MySQL、Oracle这样的关系型数据库,也包括Redis,HBase这样的非关系型数据库
    无论是哪一种数据库,它们所存储的都是结构化数据,主要应用的领域是联机事务处理(OLTP),也就是我们程序员所熟悉的增删改查业务。
  • 同时数据不但可以支撑业务的运行,也可以用于生成商业报表,进行数据分析,提供有价值的决策参考。这些数据分析和生成报表的处理操作,被称为联机分析处理(OLAP)
  • 但是,传统数据库擅长的是快速地对小规模数据进行增删改查,并不擅长大规模数据的快速读取

于是数据仓库应运而生

那什么是数据仓库呢?
  • 它是一种全新的数据存储方式,把原本分散在不同项目当中的业务数据进行抽取、清洗、转换、加载,最终汇总成为一系列面向主题的数据集合,按照全新的方式进行存储,即数据仓库(Data Warehouse)
  • 而把数据进行抽取、清洗、转换、加载的过程,被称为ETL(Extract Transform Load)
  • 注意 数据仓库当中存储的数据,同样是结构化数据

数据库 与 数据仓库应用区别

  • 数据库用于业务处理
  • 数据仓库 则 用于数据分析

数据湖又是什么? 怎么产生的呢

产生原因
  • 数据往往不仅只有结构化的数据具有分析价值 非结构化的数据同样具有分析价值 比如用户日志、电子邮件、PDF等
    但是按照统一的ETL方式加工处理是不可行的
  • 于是就将这些数据不处理 直接按照原格式汇总在一起 这些数据存储的地方我们就称之为数据湖(Data Lake)
可存储的数据结构类型
  • 结构化的 包括各种关系型数据库
  • 半结构化的 eg:JSON XML CSV
  • 非结构化的 eg:电子邮件 PDF 各种文档
  • 其他的二进制文件 Eg: 图片 视频 音频
数据湖的数据移动操作类型
  • 第一种由内向外 即将数据湖当中的部分数据移至数据仓库、日志系统等节点
  • 第二种由外而内 即将业务数据从关系型数据库和非关系型数据库移动到数据湖内
  • 第三种围绕边界 即将数据在不同的专用数据存储方案之间往来移动,比如将数据仓库内的数据提供给机器学习系统
  • 注意 随着数据湖与专门构建的存储方案中的数据量的不断增长 数据的往来移动操作也就会越来越困难 我们称其为数据重力
    所以为了顺畅应用数据湖和配套的专用数据闭环,已安全的方式让数据在不同数据存储方案间快速移动 数据湖的数据架构需要满足一系列的条件
数据架构设计遵循条件

1.快速构建起可扩展的数据湖。

2.丰富而且功能强大的专门构建的数据服务集合,这些数据服务可以为交互式仪表板与日志分析等提供必要的性能支持。

3.在数据湖及各专门构建的数据服务之间实现数据的无缝化移动。

4.通过统一方式加以保护、监控与管理,保证数据访问活动的合规性。

5.以低成本方式扩展系统,保证不对性能产生负面影响。

这些构建准则 我们也称之为数据湖配套的专用构建数据服务体系

于是智能湖仓(Lake House)架构 就诞生了

  • 本质就是 数据湖+及其配套的专用构建数据服务体系

引用:https://mp.weixin.qq.com/s/JuIW8guE00GEuT_14q5_8w

posted @ 2021-05-28 11:24  C余L小R鱼  阅读(402)  评论(0编辑  收藏  举报