2018年3月12日

Spark操作算子本质-RDD的容错

摘要: Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群中只能有一个资源调度,如果有两个资源调度的话,master和resourcemanager之间是不通 阅读全文

posted @ 2018-03-12 22:07 嘣嘣嚓 阅读(279) 评论(0) 推荐(0) 编辑

Spark集群搭建(local、standalone、yarn)

摘要: Spark集群搭建 local本地模式 下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./examples/jars/spark-examples 阅读全文

posted @ 2018-03-12 22:03 嘣嘣嚓 阅读(497) 评论(0) 推荐(0) 编辑

Spark持久化策略

摘要: spark持久化策略_缓存优化persist、cache都是持久化到内存缓存策略 StorageLevel_useDisk:是否使用磁盘_useMemory:是否使用内存_useOffHeap:不用堆内存,找tackyon_deserialized:不序列化(序列化可理解为压缩,节省内存磁盘空间,但 阅读全文

posted @ 2018-03-12 21:59 嘣嘣嚓 阅读(354) 评论(0) 推荐(0) 编辑

SparkRDD内核

摘要: Spark内核 RDD是基础,是spark中一个基础的抽象,是不可变的,比如我们加载进的数据RDD,如果想更改其中的内容是不允许的;分区的集合,可以并行来计算;RDD类中包含了很多基础的操作,例如map filter persist,RDD的数据是加载到内存中,使用persist可将内存中的数据持久 阅读全文

posted @ 2018-03-12 21:56 嘣嘣嚓 阅读(188) 评论(0) 推荐(0) 编辑

Spark初识

摘要: Spark初识 spark是一个快速的统一的引擎,基于内存的运算 spark有一个高级的DAG(有向无环图)引擎,支持循环的数据流和基于内存的计算 spark支持的开发语言Java\Scala\Python\R spark提供了80多种算子操作 在一个应用中可以无缝整合spark组件 spark可运 阅读全文

posted @ 2018-03-12 21:52 嘣嘣嚓 阅读(207) 评论(0) 推荐(0) 编辑

导航