mtxcat

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2020年11月22日

摘要: 大致可以将大数据的计算引擎分成了 4 代。 第一代的计算引擎,无疑就是Hadoop承载的MapReduce。它将每个JobApp都被设计为两个阶段,分别为Map和Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个App的串联,才能完成一个完整的算法,例如迭代计 阅读全文
posted @ 2020-11-22 20:21 mtxcat 阅读(167) 评论(0) 推荐(0) 编辑

摘要: 背景 ​ SQL作为一门标准的、通用的、简单的DSL,在大数据分析中有着越来越重要的地位;Spark在批处理引擎领域当前也是处于绝对的地位,而Spark2.0中的SparkSQL也支持ANSI-SQL 2003标准。因此SparkSQL在大数据分析中的地位不言而喻。 本文将通过分析一条SQL在Spa 阅读全文
posted @ 2020-11-22 08:21 mtxcat 阅读(147) 评论(0) 推荐(0) 编辑