热数据、温数据、冷数据

根据数据的访问频率,可以分为热、温、冷三类数据,大数据背景下它们占数据总量的比例一般约为热5%、温15%、冷80%。根据不同的数据类型,我们可以使用不同性质的存储介质,比如冷数据的长期归档可以使用蓝光存储,可以安全长久低成本地存储数据;而热数据因为需要被频繁地访问读取,因此采用闪存或者硬盘等介质来满足对于访问速度性能的要求。

按照数据被使用的频繁程度,数据可以被分为热数据、温数据和冷数据。

 

 

 

热数据,比如可以是半年以内的数据,用户经常会查询它们,适合放在数据库中存储,比如MySql、MongoDB和HBase,其中HBase是:

Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

温数据,比如可以是半年到一年的数据,用户有时也需要在线查询一年内的数据,这些数据也适合存在数据库中,如果数据量不大,也可以不区分温数据和热数据。

冷数据,就是不怎么使用的数据,这些数据可以存储在性能较低、价格较便宜的文件系统里,比如HDFS:

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。

冷数据通常适合离线的分析,比如机器学习中的模型训练或者大数据分析。

区分热、温和冷数据的主要好处在于节省数据存储成本和提升在线数据查询性能。

 

 

posted @   业余砖家  阅读(2013)  评论(0编辑  收藏  举报
编辑推荐:
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
阅读排行:
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· DeepSeek 解答了困扰我五年的技术问题。时代确实变了!
· 趁着过年的时候手搓了一个低代码框架
· 推荐一个DeepSeek 大模型的免费 API 项目!兼容OpenAI接口!
点击右上角即可分享
微信分享提示