摘要: Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(Flink Runtime),提供支持流处理和批处理两种类型应用的功能。 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为他们它们所提供的SLA是完全不相同的:流处理一 阅读全文
posted @ 2016-07-27 23:14 先天高手 阅读(261) 评论(0) 推荐(0) 编辑
摘要: Dremel 是Google 的“交互式”数据分析系统。Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Apache推出Dremel的开源实现Drill,将Dremel的技术又推到了浪尖 上。 Dremel系统有下面几个主要的特点: Dremel是一个大规模系统 阅读全文
posted @ 2016-07-27 23:12 先天高手 阅读(2223) 评论(0) 推荐(0) 编辑
摘要: OLAPCube是一种典型的多维数据分析技术,Cube本身可以认为是不同维度数据组成的dataset,一个OLAP Cube 可以拥有多个维度(Dimension),以及多个事实(Factor Measure)。用户通过OLAP工具从多个角度来进行数据的多维分析。通常认为OLAP包括三种基本的分析操 阅读全文
posted @ 2016-07-27 23:07 先天高手 阅读(8856) 评论(0) 推荐(0) 编辑
摘要: Phoenix是Salesforce.com开源的一个项目,可以让开发者在Apache HBase上执行SQL查询。 Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说 阅读全文
posted @ 2016-07-27 22:57 先天高手 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 一、系统架构 runtime framework v.s. mpp 在SQL on Hadoop系统中,有两种架构: 1、一种是基于某个运行时框架来构建查询引擎,典型案例是Hive; 2、另一种是仿照过去关系数据库的MPP架构,就是参考过去的MPP数据库架构打造一个专门的系统,于是就有了Impala 阅读全文
posted @ 2016-07-27 22:54 先天高手 阅读(2786) 评论(0) 推荐(0) 编辑
摘要: AES(The Advanced Encryption Standard)是美国国家标准与技术研究所用于加密电子数据的规范。是公认的加密包括金融、电信和政府数字信息的方法。 AES算法概述 AES 是一个迭代的、对称密钥分组的密码,它可以使用128、192 和 256 位密钥,并且用 128 位(1 阅读全文
posted @ 2016-07-27 22:26 先天高手 阅读(1216) 评论(0) 推荐(0) 编辑
摘要: Hawq采用分层架构,将MPP shared-nothing的计算层架在HDFS之上。 Hawq集群中有三种角色:master, namenode和segment hosts。 1、Master负责认证、授权、从查询解析、分析、优化到生成计划,启动并分发计划,并收集执行状态和结果。 2、segmen 阅读全文
posted @ 2016-07-27 22:00 先天高手 阅读(2324) 评论(0) 推荐(0) 编辑
摘要: Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query 阅读全文
posted @ 2016-07-27 20:27 先天高手 阅读(6581) 评论(0) 推荐(1) 编辑
摘要: remote dictionary server 远程字典服务器 Redis默认支持16个数据库,不同的应用应该使用不同的Redis实例存储数据。 支持数据类型:字符串,哈希散列,列表,集合,有序集合 支持数据类型:字符串,哈希散列,列表,集合,有序集合 阅读全文
posted @ 2016-07-26 22:57 先天高手 阅读(239) 评论(0) 推荐(0) 编辑