摘要: 和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构 阅读全文
posted @ 2017-07-02 23:41 mzzcy 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 梗概: RDD 其实就是分布式的元素集合。 在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD 以及 调用RDD 操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区 阅读全文
posted @ 2017-07-02 20:36 mzzcy 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 目的:提高函数调用的效率; 特点:编译期间 将程序中的 调用表达式 用函数体 进行替换;而对于其他的函数,都是在运行时候才被替代。 这其实就是个空间代价换时间的节省。 内联函数一般不益太长,一般都是1-5行的小函数。 阅读全文
posted @ 2017-07-02 15:50 mzzcy 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 仅作《Spark快速大数据分析》学习笔记 定义:Spark是一个用来实现 快速 而 通用 的集群计算平台;(通用的大数据处理引擎;) 改进了原Hadoop MapReduce处理模型,体现在三方面: a. 速度;(内存计算) b. 不仅支持批处理,还支持交互式查询(速度快的成果)、流式计算、机器学习 阅读全文
posted @ 2017-07-02 15:04 mzzcy 阅读(237) 评论(0) 推荐(0) 编辑