大数据演进历程中数据仓库时代、数据湖时代和湖仓一体时代

数据仓库时代

  • 起源与背景:20世纪80年代末,企业数据处理主要依赖传统关系数据库,但在支持复杂查询和数据分析方面性能不足,为解决此问题,IBM等公司提出数据仓库概念。
  • 技术特点
    • 数据整合与预处理:从多个数据源抽取、清洗、转换和加载数据,确保数据质量和一致性,存储的是经过处理的结构化数据。
    • 面向主题与分析:按照主题域组织数据,如销售、库存、客户等,便于进行复杂数据分析,支持多维数据模型和在线分析处理技术。
    • 架构分层明确:通常包括操作层、数据准备层、数据存储层和应用层,各层职责清晰。
  • 应用场景:主要用于企业内部的报表生成和决策分析,如制作销售报表、财务报表,进行销售趋势分析、客户行为分析等。

数据湖时代

  • 兴起原因:进入21世纪,随着社交网络、移动设备、物联网等的发展,数据量呈指数级增长,数据来源和格式日益多样化,数据仓库在处理非结构化和半结构化数据以及时效性要求上力不从心,数据湖应运而生。
  • 技术特点
    • 数据存储灵活多样:可以存储结构化、半结构化和非结构化数据,支持多种数据格式,如CSV、JSON、XML、图像、音频、视频等。
    • 原始数据保留:不对数据进行过多预处理,保持数据原始性,数据使用者可根据需求灵活处理和分析。
    • 快速摄入与扩展:能够快速摄入新数据,适合处理实时或近实时数据,基于分布式文件系统构建,可扩展性强。
  • 应用场景:适用于探索性数据分析、数据科学项目和机器学习模型训练,数据科学家可从中获取各种数据进行探索、特征工程和模型训练。

湖仓一体时代

  • 发展背景:数据湖和数据仓库在各自的应用场景中都存在一些局限性,企业对于一种既能灵活存储各种数据又能高效进行数据分析和管理的数据架构的需求日益迫切,湖仓一体概念于2020年首次提出。
  • 技术特点
    • 融合优势:结合了数据仓库的高性能、管理能力和数据湖的灵活性,底层支持多种数据类型并存,实现数据间相互共享。
    • 数据治理与事务支持:具备健全的数据治理和审计机制,支持事务的ACID特性,确保数据并发访问的一致性和正确性。
    • 支持多种工作负载:可同时支持实时查询和分析、数据科学、机器学习、SQL查询等多种负载类型。
  • 应用场景:可服务于数据中台的实时数仓、支撑微服务的数据融合底座、作为全量数据实时访问平台以及进行非结构化数据处理等。
posted @ 2024-12-17 13:59  软件职业规划  阅读(15)  评论(0编辑  收藏  举报