Y歪 - 博客园

2019年12月14日

摘要： PS：看见同事的IDEA背景很好看，才知道IDEA是可以添加它的背景图片的，然后自己动手修改了一下自己的，步骤很简单效果如下：步骤如下： 1.File -> Settings 2.设置快捷键；应用并退出 3.使用快捷键，自己设置的 ***哈哈是不是很简单，马上动起手来，设置自己喜欢的风格吧阅读全文

posted @ 2019-12-14 10:56 Y歪阅读(1470) 评论(2) 推荐(0)

2019年12月12日

DAG有向无环图及Stage的划分

摘要： DAG有向无环图如果一个有向图无法从某个定点出发经过若干条边回到该点,则这个图是一个有向无环图 ps:通俗来说就是有方向,没有回流的图解说：先从G开始向前，B、F是父RDD，B是窄依赖，F是宽依赖 B和A之间是宽依赖，A划分出来Stage0； F向前，D、E、C，之间的关系是窄依赖，所以从F划阅读全文

posted @ 2019-12-12 18:04 Y歪阅读(969) 评论(0) 推荐(0)

TextFile分区问题

摘要： val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如本地运行设置为local 此时设置分区值默认分区就是1个 val rdd 阅读全文

posted @ 2019-12-12 17:44 Y歪阅读(751) 评论(0) 推荐(0)

Action算子

摘要： import org.apache.spark.rdd.RDD /* action算子(行动算子) --> 是触发转换算子计算一个action算子触发,就会产生job action算子的返回值基本上就不是RDD,所以在action算子后面在触发计算,就需要区分计算的数据了 */ object Ac 阅读全文

posted @ 2019-12-12 17:41 Y歪阅读(604) 评论(0) 推荐(0)

进阶算子

摘要：进阶算子： import org.apache.spark.rdd.RDD import org.apache.spark.{HashPartitioner, SparkConf, SparkContext} /** * 进阶算子 */ object FunctionDemo2 { def main 阅读全文

posted @ 2019-12-12 17:37 Y歪阅读(214) 评论(0) 推荐(0)

Scala中sortBy和Spark中sortBy区别

摘要： Scala中sortBy和Spark中sortBy区别 Scala中sortBy是以方法的形式存在的,并且是作用在Array或List集合排序上,并且这个sortBy默认只能升序,除非实现隐式转换或调用reverse方法才能实现降序, Spark中sortBy是算子,作用出发RDD中数据进行排序,默阅读全文

posted @ 2019-12-12 17:20 Y歪阅读(2114) 评论(0) 推荐(0)

简单算子演示

摘要： import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * 简单算子演示 */ object FunctionDemo1 { def main(args: Array[String]) 阅读全文

posted @ 2019-12-12 17:19 Y歪阅读(198) 评论(0) 推荐(0)

map和FlatMap之间区别?

摘要： map和FlatMap之间区别? 这两者都是遍历RDD中数据,并对数据进行数据操作,并且会的到一个全新RDD Map多用于计算或处理一些特殊数据类型,不能使用扁平化处理的数据类型 flatMap不仅可以对数据遍历处理,而且可以将存在RDD中集合中数据进行处理并且存储到一个新的集合中所以两种的使用本阅读全文

posted @ 2019-12-12 16:18 Y歪阅读(3954) 评论(0) 推荐(0)

RDD

摘要： 1.RDD的概念 RDD(Resilient Distributed Dataset)叫做分布式弹性数据集,是Spark中最基本的数据抽象.它代表一个不可变,可分区,里面的元素可以并行计算的集合,RDD具有数据流模型的特点:自动容错,位置感知 ,性能调度和可伸缩性,RDD允许用户在执行多个查询时显式阅读全文

posted @ 2019-12-12 16:08 Y歪阅读(419) 评论(0) 推荐(0)

Spark高可用

摘要： master节点存在单点故障，要解决此问题，就要借助zookeeper，并且启动至少两个master节点来实现高可靠，配置方式比较简单： Spark集群规划：Master：hadoop01、hadoop04； Worker：hadoop02、hadoop03、hadoop04 安装配置zk集群，并启阅读全文

posted @ 2019-12-12 14:49 Y歪阅读(805) 评论(1) 推荐(0)

璞玉

不忘初心

公告