海量数据存储和查询方案

一、大容量数据实时存储方案

点击流：App、小程序和 Web 页面上的埋点数据，这些埋点数据记录用户的行为，比如你打开了哪个页面，点击了哪个按钮，在哪个商品上停留了多久

数据量：每天超过 TB（1 TB = 1024 GB）级别，数据累积达到 PB（1 PB = 1024 TB）级别

方案一：几个月内实时数据计算

方案二：几个月或几年数据计算

HDFS存储，按照时间和业务属性来组织目录结构和文件名，以便于下游计算程序来读取，比如说：“click/20200808/Beijing_0001.csv

Kafak与HDSF比较

吞吐量：Kafak每秒钟几百M，HDFS吞吐量只能达到百M

存储：HDFS提供无限存储容量

查询能力：HDFS 能提供比 Kafka 更强的数据查询能力，配合 Hive 直接就可以支持用 SQL 对数据进行查询；Kafka 只能按照时间或者位点来提取数据

方案三：同时兼容吞吐量和存储容量方案

分布式流数据存储：Pravega、Pulsar 的存储引擎Apache BookKeeper、JournalKeeper

时序数据库（Time Series Databases）：InfluxDB和OpenTSDB

二、大容量数据实时查询方案

通过对海量数据实时或离线计算，过滤计算最终存储到其他存储系统 =》将TB级别讲到GB级别

实时流计算：Flink、Storm

离线批计算：Map-Reduce、Spark等

分析类存储方案选择

1、数据量 <GB (百w-kw) 级别： MySQL存储，建立实时库的离线分析备库

2、数据量 10GB 级别：

HBase、Cassandra、ClickHouse : 查询秒级返回，查询方式无MySQL灵活

Elasticsearch（ES)：数据存放内存，也支持MapReduce分布式并行查询；优先考虑，缺点大内存，硬件成本高 =》公司级别日志系统ELK方案

3、超过TB:

存放HDFS, 配合MapReduce、Spark、Hive大数据生态圈做数据聚合和计算

posted @ 2022-05-14 10:46 yuxuan0802 阅读(2866) 评论(0) 收藏举报

刷新页面返回顶部

for ideas