2017 年 7月 2 日随笔档案 - mzzcy

2017年7月2日

摘要：和Hive SQL演变而来，有很多相似之处；挖坑待做； Spark入门之五：SparkSQL的原理以及架构阅读全文

posted @ 2017-07-02 23:41 mzzcy 阅读(123) 评论(0) 推荐(0) 编辑

摘要：梗概： RDD 其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。而在这一切背后，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区阅读全文

posted @ 2017-07-02 20:36 mzzcy 阅读(235) 评论(0) 推荐(0) 编辑

内联函数

摘要：目的：提高函数调用的效率；特点：编译期间将程序中的调用表达式用函数体进行替换；而对于其他的函数，都是在运行时候才被替代。这其实就是个空间代价换时间的节省。内联函数一般不益太长，一般都是1-5行的小函数。阅读全文

posted @ 2017-07-02 15:50 mzzcy 阅读(121) 评论(0) 推荐(0) 编辑

Spark基本原理

摘要：仅作《Spark快速大数据分析》学习笔记定义：Spark是一个用来实现快速而通用的集群计算平台；（通用的大数据处理引擎；）改进了原Hadoop MapReduce处理模型，体现在三方面： a. 速度；（内存计算） b. 不仅支持批处理，还支持交互式查询(速度快的成果)、流式计算、机器学习阅读全文

posted @ 2017-07-02 15:04 mzzcy 阅读(237) 评论(0) 推荐(0) 编辑

mzzcy

公告