摘要:上一篇Tajo--一个分布式数据仓库系统(概述)废话了一通,下面介绍一下Tajo的体系结构、以及官方的实验成果吧一、体系架构 Tajo采用了Master-Worker架构(下图虚线框目前还在计划中),Master-Worker-Client之间的RPC通信是使用Protocol buffer + Netty来实现的,具体如下:(1) TajoMaster:为客户端提供查询服务和管理各个QueryMaster(也可以说是Tajo Worker),解析Query并协调QueryMaster,目前还内置了catalog服务器。大致可以分为四个组件:Cluster Manager、Catalog、G.
阅读全文
11 2013 档案
摘要:前言:一直对OS X比较仰慕,刚工作送给自己的第一件大礼就是mac pro,嘿嘿。最近在看一个叫tajo得分布式数据仓库,需要依赖protoc 2.4.1,2.5.0都不work,不知道为啥,我在装2.4.1的时候make不过,报make[2]: *** [message.lo] Error 1这种错误,上网查了需要修改一下message.h代码,贴一下解决办法:解决办法:修改src/google/protobuf/message.h#ifdef __DECCXX// HP C++'s iosfwd doesn't work.#include #else#include //#
阅读全文
摘要:执行计划是指示Oracle如何获取和过滤数据、产生最终结果集,是影响SQL语句执行性能的关键因素。我们在深入了解执行计划之前,首先需要知道执行计划是在什么时候产生的,以及如何让SQL引擎为语句生成执行计划。 在深入了解执行计划之前,我们先了解SQL语句的处理执行过程。当一条语句提交到Oracle后,SQL引擎会分为三个步骤对其处理和执行:解析(Parse)、执行(Execute)和获取(Fetch),分别由SQL引擎的不同组件完成。SQL引擎的组件如图1-1所示。1. SQL编译器(SQL Compiler) 将语句编译到一个共享游标中。SQL编译器由解析器(Pars...
阅读全文
摘要:一直对行式存储和列式存储理解不是很好,这篇文章介绍了行式存储和列式存储的区别,总结得非常好。一句话解释就是:行式存储就是将一行的数据中的所有列存储在一起,列式存储就是将一列上所有行的数据存放在一起。
阅读全文
摘要:引自:http://blog.csdn.net/xhanfriend/article/details/8434896对于数据分析师来说,SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力,可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务,而MapReduce原本是大数据批处理计算框架,并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度:1.用一种更快的SQL执行引擎取代MapReduce。2.优化MapReduce,使其更适合OLAP查询。谷歌在这两种思路上都做出了先驱性工作。2010年,
阅读全文