2013 年 11月随笔档案 - 残雪余香

Tajo--一个分布式数据仓库系统（设计架构）

摘要：上一篇Tajo--一个分布式数据仓库系统（概述）废话了一通，下面介绍一下Tajo的体系结构、以及官方的实验成果吧一、体系架构 Tajo采用了Master-Worker架构(下图虚线框目前还在计划中)，Master-Worker-Client之间的RPC通信是使用Protocol buffer + Netty来实现的，具体如下：（1） TajoMaster：为客户端提供查询服务和管理各个QueryMaster（也可以说是Tajo Worker），解析Query并协调QueryMaster，目前还内置了catalog服务器。大致可以分为四个组件：Cluster Manager、Catalog、G. 阅读全文

posted @ 2013-11-30 15:23 残雪余香阅读(9090) 评论(0) 推荐(1) 编辑

Tajo--一个分布式数据仓库系统（概述）

摘要：前言：一直对OS X比较仰慕，刚工作送给自己的第一件大礼就是mac pro，嘿嘿。最近在看一个叫tajo得分布式数据仓库，需要依赖protoc 2.4.1,2.5.0都不work，不知道为啥，我在装2.4.1的时候make不过，报make[2]: *** [message.lo] Error 1这种错误，上网查了需要修改一下message.h代码，贴一下解决办法：解决办法：修改src/google/protobuf/message.h#ifdef __DECCXX// HP C++'s iosfwd doesn't work.#include #else#include //# 阅读全文

posted @ 2013-11-30 15:10 残雪余香阅读(2115) 评论(0) 推荐(0) 编辑

Oracle 高性能SQL引擎剖析----执行计划

摘要：执行计划是指示Oracle如何获取和过滤数据、产生最终结果集，是影响SQL语句执行性能的关键因素。我们在深入了解执行计划之前，首先需要知道执行计划是在什么时候产生的，以及如何让SQL引擎为语句生成执行计划。在深入了解执行计划之前，我们先了解SQL语句的处理执行过程。当一条语句提交到Oracle后，SQL引擎会分为三个步骤对其处理和执行：解析（Parse）、执行（Execute）和获取（Fetch），分别由SQL引擎的不同组件完成。SQL引擎的组件如图1-1所示。1. SQL编译器（SQL Compiler）将语句编译到一个共享游标中。SQL编译器由解析器（Pars... 阅读全文

posted @ 2013-11-28 20:12 残雪余香阅读(2312) 评论(0) 推荐(0) 编辑

【转】对列式数据库的一点总结和展望

摘要：一直对行式存储和列式存储理解不是很好，这篇文章介绍了行式存储和列式存储的区别，总结得非常好。一句话解释就是：行式存储就是将一行的数据中的所有列存储在一起，列式存储就是将一列上所有行的数据存放在一起。阅读全文

posted @ 2013-11-27 15:27 残雪余香阅读(447) 评论(0) 推荐(0) 编辑

【转】大数据分析（Big Data OLAP）引擎Dremel, Tenzing 以及Impala

摘要：引自：http://blog.csdn.net/xhanfriend/article/details/8434896对于数据分析师来说，SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力，可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务，而MapReduce原本是大数据批处理计算框架，并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度：1.用一种更快的SQL执行引擎取代MapReduce。2.优化MapReduce，使其更适合OLAP查询。谷歌在这两种思路上都做出了先驱性工作。2010年，阅读全文

posted @ 2013-11-27 15:05 残雪余香阅读(1157) 评论(0) 推荐(0) 编辑

残雪余香

公告

11 2013 档案