2018 年 9月 16 日随笔档案 - 再见、梦想

2018年9月16日

摘要： RDD：弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。五大特性： —分区列表，RDD中的数据都存在一个分区列表里面 —作用在每一个分区中的函数 —RDD依赖于其他多个RDD —Partitioner针对KV类型的RDD —数据本地性，数据位阅读全文

posted @ 2018-09-16 13:20 再见、梦想阅读(221) 评论(0) 推荐(0) 编辑

从Hadoop MapReduce到Spark

摘要：回顾MapReduce的计算过程 Spark对比MapReduce Spark是借鉴了MapReduce的思想并在其基础上发展起来的，继承了其分布式计算的优点并改进其缺陷，但两者也有不少的差异如下： 1.spark更快，spark把运行的之间数据存放在内存，迭代计算效率高；mapreduce的之间结阅读全文

posted @ 2018-09-16 09:50 再见、梦想阅读(206) 评论(0) 推荐(0) 编辑

再见、梦想

方法总比困难多！！！

公告