摘要:
PS:看见同事的IDEA背景很好看,才知道IDEA是可以添加它的背景图片的,然后自己动手修改了一下自己的,步骤很简单 效果如下: 步骤如下: 1.File -> Settings 2.设置快捷键;应用并退出 3.使用快捷键,自己设置的 ***哈哈 是不是很简单,马上动起手来,设置自己喜欢的风格吧 阅读全文
摘要:
DAG有向无环图 如果一个有向图无法从某个定点出发经过若干条边回到该点,则这个图是一个有向无环图 ps:通俗来说就是有方向,没有回流的图 解说: 先从G开始向前,B、F是父RDD,B是窄依赖,F是宽依赖 B和A之间是宽依赖,A划分出来Stage0; F向前,D、E、C,之间的关系是窄依赖,所以从F划 阅读全文
摘要:
val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数 获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如 本地运行 设置为local 此时设置分区值默认分区就是1个 val rdd 阅读全文
摘要:
import org.apache.spark.rdd.RDD /* action算子(行动算子) --> 是触发转换算子计算 一个action算子触发,就会产生job action算子的返回值基本上就不是RDD,所以在action算子后面在触发计算,就需要区分计算的数据了 */ object Ac 阅读全文
摘要:
进阶算子: import org.apache.spark.rdd.RDD import org.apache.spark.{HashPartitioner, SparkConf, SparkContext} /** * 进阶算子 */ object FunctionDemo2 { def main 阅读全文
摘要:
Scala中sortBy和Spark中sortBy区别 Scala中sortBy是以方法的形式存在的,并且是作用在Array或List集合排序上,并且这个sortBy默认只能升序,除非实现隐式转换或调用reverse方法才能实现降序, Spark中sortBy是算子,作用出发RDD中数据进行排序,默 阅读全文
摘要:
import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * 简单算子演示 */ object FunctionDemo1 { def main(args: Array[String]) 阅读全文
摘要:
map和FlatMap之间区别? 这两者都是遍历RDD中数据,并对数据进行数据操作,并且会的到一个全新RDD Map多用于计算或处理一些特殊数据类型,不能使用扁平化处理的数据类型 flatMap不仅可以对数据遍历处理,而且可以将存在RDD中集合中数据进行处理并且存储到一个新的集合中 所以两种的使用本 阅读全文
摘要:
1.RDD的概念 RDD(Resilient Distributed Dataset)叫做分布式弹性数据集,是Spark中最基本的数据抽象.它代表一个不可变,可分区,里面的元素可以并行计算的集合,RDD具有数据流模型的特点:自动容错,位置感知 ,性能调度和可伸缩性,RDD允许用户在执行多个查询时显式 阅读全文
摘要:
master节点存在单点故障,要解决此问题,就要借助zookeeper,并且启动至少两个master节点来实现高可靠,配置方式比较简单: Spark集群规划:Master:hadoop01、hadoop04; Worker:hadoop02、hadoop03、hadoop04 安装配置zk集群,并启 阅读全文