摘要: Hive本质上是一个数据仓库,但不存储数据(只存储元数据(metadata),Hive中的元数据包括表的名字,表的列和分区及分区及其属性,表的属性(是否为外部表等),表的数据所在目录等),用户可以借助Hive使用sql对存储在分布式文件系统中的大数据集进行读写Hive... 阅读全文
posted @ 2018-07-13 16:30 Mayny# 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 1.Spark架构 分布式spark应用中的组件 在分布式环境下,Spark集群采用的是主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点。与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的 阅读全文
posted @ 2018-07-13 16:29 Mayny# 阅读(771) 评论(0) 推荐(0) 编辑