2018 年 3月 12 日随笔档案 - 嘣嘣嚓

Spark操作算子本质-RDD的容错

摘要： Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群中只能有一个资源调度，如果有两个资源调度的话，master和resourcemanager之间是不通阅读全文

posted @ 2018-03-12 22:07 嘣嘣嚓阅读(279) 评论(0) 推荐(0) 编辑

Spark集群搭建（local、standalone、yarn）

摘要： Spark集群搭建 local本地模式下载安装包解压即可使用，测试（2.2版本）./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./examples/jars/spark-examples 阅读全文

posted @ 2018-03-12 22:03 嘣嘣嚓阅读(497) 评论(0) 推荐(0) 编辑

Spark持久化策略

摘要： spark持久化策略_缓存优化persist、cache都是持久化到内存缓存策略 StorageLevel_useDisk：是否使用磁盘_useMemory：是否使用内存_useOffHeap：不用堆内存，找tackyon_deserialized：不序列化（序列化可理解为压缩，节省内存磁盘空间，但阅读全文

posted @ 2018-03-12 21:59 嘣嘣嚓阅读(354) 评论(0) 推荐(0) 编辑

SparkRDD内核

摘要： Spark内核 RDD是基础,是spark中一个基础的抽象，是不可变的，比如我们加载进的数据RDD，如果想更改其中的内容是不允许的；分区的集合，可以并行来计算；RDD类中包含了很多基础的操作，例如map filter persist,RDD的数据是加载到内存中,使用persist可将内存中的数据持久阅读全文

posted @ 2018-03-12 21:56 嘣嘣嚓阅读(188) 评论(0) 推荐(0) 编辑

Spark初识

摘要： Spark初识 spark是一个快速的统一的引擎，基于内存的运算 spark有一个高级的DAG(有向无环图)引擎，支持循环的数据流和基于内存的计算 spark支持的开发语言Java\Scala\Python\R spark提供了80多种算子操作在一个应用中可以无缝整合spark组件 spark可运阅读全文

posted @ 2018-03-12 21:52 嘣嘣嚓阅读(207) 评论(0) 推荐(0) 编辑

嘣嘣嚓

Spark操作算子本质-RDD的容错

Spark集群搭建（local、standalone、yarn）

Spark持久化策略

SparkRDD内核

Spark初识

导航

公告