摘要:
1、基于RDBMS的数据仓库实现:数据仓库的设计也可以理解为面向OLAP的数据库设计。数据仓库的设计模式分为星型结构、雪花结构(1个维度表向外连接子维表)、星座结构(1个维度被多个事实表使用)。在星型模型中主要数据存储在事实表中,没有冗余,并符合3NF 2、除了对应到维度的外码和度量属性,事实表中还 阅读全文
摘要:
1. 多维数据库简介 多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提 阅读全文
摘要:
对没有使用过数据仓库的人,对这三个概念确实是有点混淆不清。包括我自己本身不是做数据仓库出身,所以实际上是从实践出发,理论基础是有点匮乏的。 一、基本概念 1. OLAP OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致 阅读全文
摘要:
原文地址:https://kylin.apache.org/docs16/howto/howto_optimize_build.html Kylin将一个cube的build过程分解为若干个子步骤,然后串行执行这些子步骤。这些步骤包括Hive操作,MR任务和其他类型的工作。如果每天都有许多cube进 阅读全文
摘要:
Apache Kylin是一个开源的分布式分析引擎。完全由eBay Inc.中国团队开发 并贡献至开源社区。提供Hadoop之上的SQL查询接口及多维分析(MOLAP)能力以 支持大规模数据能在亚秒内查询巨大的Hive表(十亿百亿的海量数据)。 Apache Kylin社区发展 大数据分析面临的挑战 阅读全文
摘要:
SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下: > MPP [1] 的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合 阅读全文
摘要:
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及 阅读全文
摘要:
一、ODBC ODBC的由来 1992年Microsoft和Sybase、Digital共同制定了ODBC标准接口,以单一的ODBC API来存取各种不同的数据库。随后ODBC便获得了许多数据库厂商和Third-Party的支持而逐渐成为标准的数据存取技术。 ODBC以当时的业界标准规范X/Open 阅读全文
摘要:
ODBC: (Open Database Connectivity,开放数据库互连),它建立了一组规范,并提供了一组对数据库访问的标准API(应用程序编程接口)。这些API利用SQL来完成其大部分任务。ODBC本身也提供了对SQL语言的支持,用户可以直接将SQL语句送给ODBC。 JDBC:全称为J 阅读全文