海量数据存储和查询方案

一、大容量数据实时存储方案

点击流:App、小程序和 Web 页面上的埋点数据,这些埋点数据记录用户的行为,比如你打开了哪个页面,点击了哪个按钮,在哪个商品上停留了多久

数据量:每天超过 TB(1 TB = 1024 GB)级别,数据累积达到 PB(1 PB = 1024 TB)级别

 

方案一:几个月内实时数据计算

 

 

方案二:几个月或几年数据计算

HDFS存储,按照时间和业务属性来组织目录结构和文件名,以便于下游计算程序来读取,比如说:“click/20200808/Beijing_0001.csv

 

Kafak与HDSF比较

 吞吐量:Kafak每秒钟几百M,HDFS吞吐量只能达到百M  

 存储:HDFS提供无限存储容量

 查询能力:HDFS 能提供比 Kafka 更强的数据查询能力,配合 Hive 直接就可以支持用 SQL 对数据进行查询;Kafka 只能按照时间或者位点来提取数据

 

方案三:同时兼容吞吐量和存储容量方案

分布式流数据存储:Pravega、Pulsar 的存储引擎Apache BookKeeper、JournalKeeper

时序数据库(Time Series Databases):InfluxDB和OpenTSDB

 

二、大容量数据实时查询方案

通过对海量数据实时或离线计算,过滤计算最终存储到其他存储系统  =》 将TB级别讲到GB级别

实时流计算:Flink、Storm

离线批计算:Map-Reduce、Spark等

 

分析类存储方案选择

1、数据量 <GB (百w-kw) 级别 : MySQL存储,建立实时库的离线分析备库

2、数据量 10GB 级别:

HBase、Cassandra、ClickHouse : 查询秒级返回,查询方式无MySQL灵活

Elasticsearch(ES): 数据存放内存,也支持MapReduce分布式并行查询 ;优先考虑,缺点大内存,硬件成本高  =》公司级别日志系统ELK方案

3、超过TB:

存放HDFS, 配合MapReduce、Spark、Hive大数据生态圈做数据聚合和计算

 

posted @   mick0802  阅读(2646)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示