海量数据存储和查询方案
一、大容量数据实时存储方案
点击流:App、小程序和 Web 页面上的埋点数据,这些埋点数据记录用户的行为,比如你打开了哪个页面,点击了哪个按钮,在哪个商品上停留了多久
数据量:每天超过 TB(1 TB = 1024 GB)级别,数据累积达到 PB(1 PB = 1024 TB)级别
方案一:几个月内实时数据计算
方案二:几个月或几年数据计算
HDFS存储,按照时间和业务属性来组织目录结构和文件名,以便于下游计算程序来读取,比如说:“click/20200808/Beijing_0001.csv
Kafak与HDSF比较
吞吐量:Kafak每秒钟几百M,HDFS吞吐量只能达到百M
存储:HDFS提供无限存储容量
查询能力:HDFS 能提供比 Kafka 更强的数据查询能力,配合 Hive 直接就可以支持用 SQL 对数据进行查询;Kafka 只能按照时间或者位点来提取数据
方案三:同时兼容吞吐量和存储容量方案
分布式流数据存储:Pravega、Pulsar 的存储引擎Apache BookKeeper、JournalKeeper
时序数据库(Time Series Databases):InfluxDB和OpenTSDB
二、大容量数据实时查询方案
通过对海量数据实时或离线计算,过滤计算最终存储到其他存储系统 =》 将TB级别讲到GB级别
实时流计算:Flink、Storm
离线批计算:Map-Reduce、Spark等
分析类存储方案选择
1、数据量 <GB (百w-kw) 级别 : MySQL存储,建立实时库的离线分析备库
2、数据量 10GB 级别:
HBase、Cassandra、ClickHouse : 查询秒级返回,查询方式无MySQL灵活
Elasticsearch(ES): 数据存放内存,也支持MapReduce分布式并行查询 ;优先考虑,缺点大内存,硬件成本高 =》公司级别日志系统ELK方案
3、超过TB:
存放HDFS, 配合MapReduce、Spark、Hive大数据生态圈做数据聚合和计算
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix