摘要: SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案。Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL。这是Spark官方Databricks的项目,Spark项目本身主推的SQL实现。Hive On Spark比SparkS 阅读全文
posted @ 2016-03-27 11:26 凌度 阅读(597) 评论(0) 推荐(0) 编辑
摘要: MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"。 Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Pro 阅读全文
posted @ 2016-03-27 11:00 凌度 阅读(35445) 评论(0) 推荐(2) 编辑