随笔分类 -  spark core

摘要:只作为我个人笔记,没有过多解释 Transfor map filter filter之后,依然有三个分区,第二个分区为空,但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key,只把va 阅读全文
posted @ 2017-08-10 22:21 Super_Orco 阅读(327) 评论(0) 推荐(0) 编辑
摘要:Spark程序设计—创建RDD:从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样,只不过名字不一样 Spark程序设计—创建RDD:本地文件/HDFS textFile(path, 100) sequenceFile wholeTextF 阅读全文
posted @ 2017-08-09 23:08 Super_Orco 阅读(308) 评论(0) 推荐(0) 编辑
摘要:一、第一部分 1、spark2.1与hadoop2.7.3集成,spark on yarn模式下,需要对hadoop的配置文件yarn-site.xml增加内容,如下: 2、spark的conf/spark-defaults.conf配置 如果你是运行在yarn之上的话,就要告诉yarn,你spar 阅读全文
posted @ 2017-06-23 17:15 Super_Orco 阅读(15876) 评论(0) 推荐(1) 编辑
摘要:这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章 因为这里是spark和hadoop集成,我已经预先启动好了hdfs 和 yarn;MapReduce His 阅读全文
posted @ 2017-06-23 16:11 Super_Orco 阅读(6942) 评论(0) 推荐(0) 编辑
摘要:Spark背景:MapReduce局限性 MapReduce框架局限性 1、仅支持Map和Reduce两种操作,提供给用户的只有这两种操作 2、处理效率低效 Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据 任务调度和启动开销大:mr的启动开销一,客户端需要把应用程序提 阅读全文
posted @ 2017-06-22 17:30 Super_Orco 阅读(1259) 评论(0) 推荐(0) 编辑