Fork me on GitHub

随笔分类 -  大数据技术栈 / OLAP

联机分析处理OLAP(On-Line Analytical Processing)
摘要:DorisDB Apache Doris最早诞生于2008年,最初只为解决百度凤巢报表的专用系统。在08年那个时候数据存储和计算成熟的开源产品非常少,Hbase的导入性能只有大约2000条/秒,在这种不能满足业务的背景下,doris 诞生了,并且跟随百度凤巢系统一起正式上线。 Apache Dori 阅读全文
posted @ 2021-10-17 18:57 kris12 阅读(2526) 评论(0) 推荐(0) 编辑
摘要:1. Kudu Kudu,Storage for Fast Analytics on fast Data,C++实现的分布式存储系统。是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性:它在商品硬件上运行,可水平扩展,并支持高可用性操作。 阅读全文
posted @ 2021-04-14 15:47 kris12 阅读(389) 评论(0) 推荐(0) 编辑
摘要:1. 数据驱动 数据驱动的新趋势 对速度和性能要求越来越高: 查询(亚秒级别返回),快速开发, 传统的方式进行预计算kylin、clickhouse, 星型模型--宽表模型--预聚合--(聚合度越高就会丧失一些灵活性,业务变更、维度变化就要重新刷新数据) 星型和雪花模型的多表关联, 高效的即席查询, 阅读全文
posted @ 2021-04-13 23:09 kris12 阅读(7108) 评论(0) 推荐(0) 编辑
摘要:1. 建表 字段类型 tinyint 1字节 范围:-2^7 + 1 ~ 2^7 - 1 smallint 2字节 范围:-2^15 + 1 ~ 2^15 - 1 bigint 8字节 范围:-2^63 + 1 ~ 2^63 - 1 largeint 16字节 范围:-2^127 + 1 ~ 2^1 阅读全文
posted @ 2021-04-13 23:08 kris12 阅读(4241) 评论(0) 推荐(0) 编辑
摘要:1. 副本 副本的目的主要是保障数据的高可用性,即使一台ClickHouse节点宕机,那么也可以从其他服务器获得相同的数据。 1.1 副本写入流程 client从clickhouse-a节点写数据,提交写入日志给zookeeper,clickhouse-b有一个监听器来监听zookeeper接收到日 阅读全文
posted @ 2021-01-18 10:54 kris12 阅读(2588) 评论(1) 推荐(0) 编辑
摘要:Druid是一个快速的列式分布式的支持实时分析的数据存储系统,在处理PB级别数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进。 Druid数据结构 与Druid架构相辅相成的是其基于DataSource与Segment的数据结构,它们共同成就了Druid的高性能优势。 Dr 阅读全文
posted @ 2020-01-30 10:20 kris12 阅读(1260) 评论(0) 推荐(0) 编辑
摘要:1. ClickHouse概述 ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告 https://clickhouse.yandex/docs/zh/ 官网:https://clic 阅读全文
posted @ 2019-08-31 08:09 kris12 阅读(7186) 评论(0) 推荐(0) 编辑

levels of contents
点击右上角即可分享
微信分享提示