数仓工具
1. pandas:数据分析类库
基于NumPy,为了解决数据分析任务而创建的工具。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。
Pandas最初被作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。
panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
2. QueryEngine
百度大数据部门QueryEngine团队开发的一个高可用的类SQL 计算服务,提供一个高级的数据处理语言及服务。
支持厂版Hive、Wing两个后端(Wing具有更大的优势),两者高度兼容HQL(SQL),但却不受限于HQL与SQL的声明式语法。
QueryEngine 目前支持交互式和批处理两种使用方式。在交互式下,用户输入一个语句,就解释执行一个语句并返回结果;在批处理模式下,用户将自己的程序逻辑写在一个文件中,通过客户端提交给服务,服务会保证整个程序逻辑的执行。
3. Spark
整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master 和 Slave 节点。
Master 节点上常驻 Master 守护进程,负责管理全部的 Worker 节点。
Worker 节点上常驻 Worker 守护进程,负责与 Master 节点通信并管理 executors。
Driver 官方解释是 “The process running the main() function of the application and creating the SparkContext”。Application 就是用户自己写的 Spark 程序(driver program),比如 WordCount.scala。如果 driver program 在 Master 上运行,比如在 Master 上运行./bin/run-example SparkPi 10。
4. Olap
一个基于hadoop的数据仓库, 它基于hadoop(HIVE, HBASE)水平扩展的特性, 克服传统olap受限于关系型数据库数据容量的问题. Kylin是ebay推出的olap星型数据仓库的开源实现。
首先请安装Kylin, 和它的运行环境(Hadoop, yarn, hive, hbase). 如果安装成功, 登陆(http://<KYLIN_HOST>:7070/), 用户名:ADMIN, 密码(KYLIN). 安装过程请参考(http://kylin.incubator.apache.org/download/, 注意下载编译后的二进制包, 免去很多编译烦恼)。
5. Hive
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。