数据湖!这是个什么东东!!!

 

数仓技术应对关系型结构化数据游刃有余,但对于多元异构数据,却爱莫能助。
数据湖技术能够实现全量数据的单一存储,通常存储原始格式的对象块或者文件。 不管是传统数仓承载的结构化数据还是半结构化数据、非结构化数据、二进制数据等任意类型的数据,数据湖都可以轻松实现采集、存储和分析。

结构化数据 来自于关系型数据库中的行和列
半结构化数据 如CSV、日志、XML和JSON
非结构化数据 如email、文档、PDF
二进制数据 如图像、音频、视频

 

  更为人性化的是,数据湖可根据企业的业务需求提供可大可小的弹性扩充,数据可在治理规则下自由流动,采用统一的存储引擎,支持多模式计算引擎,可以运行从控制面板可视化大数据处理、实时分析机器学习等不同类型的分析,深度挖掘数据价值进行预测分析,并保证了数据一致性、可治理和安全性的实现。 同时,数据湖无需任何预处理即可对数据进行采集、存储和分析,还能消除数据采集和存储的复杂性,加速应用数据,赋能广大研发者、数据科学家、分析师实现对跨平台、跨语言、跨领域的所有数据进行高效分析和处理,并且可与企业业务数据库和数据仓库无缝集成,扩展现有数据应用,进一步助力企业大数据中台实现优化升级。 

 


 作为大数据的变革新生力量,数据湖技术一经问世,便深受大厂青睐:AWS、阿里云、华为、谷歌、腾讯等纷纷推出自己的数据湖解决方案和相关产品,并已在广告数据分析、游戏行业等领域落地实行,效果显著: 

企业无需先期购买服务器、存储等硬件设备,也无需一次性购买大量的云服务,完全契合了业务潮汐带来了资源波动,满足弹性分析需求,极大地降低了运维成本使用成本,大大提高了资金利用率。

能够实现与企业现有技术的深度融合,支持数据多元集成和迁移,大幅带动提升了企业原有分析和治理系统的性能优化。由此,众多规模企业纷纷摩拳擦掌想要打造一套自己的数据湖技术体系。

posted @ 2022-02-18 09:41  飘零枫叶  阅读(50)  评论(0编辑  收藏  举报