spark core - 随笔分类 - Super_Orco

常用RDD

摘要：只作为我个人笔记，没有过多解释 Transfor map filter filter之后，依然有三个分区，第二个分区为空，但不会消失 flatMap reduceByKey groupByKey() sortByKey() mapValues(_ + 1) mapvalues是忽略掉key，只把va 阅读全文

posted @ 2017-08-10 22:21 Super_Orco 阅读(331) 评论(0) 推荐(0) 编辑

spark程序设计

摘要：Spark程序设计—创建RDD：从Scala集合构造成RDD parallelize(a, 3) makeRDD(a, 3) 他俩使用方式一样，只不过名字不一样 Spark程序设计—创建RDD：本地文件/HDFS textFile(path, 100) sequenceFile wholeTextF 阅读全文

posted @ 2017-08-09 23:08 Super_Orco 阅读(313) 评论(0) 推荐(0) 编辑

spark深入：配置文件与日志

摘要：一、第一部分 1、spark2.1与hadoop2.7.3集成，spark on yarn模式下，需要对hadoop的配置文件yarn-site.xml增加内容，如下： 2、spark的conf/spark-defaults.conf配置如果你是运行在yarn之上的话，就要告诉yarn，你spar 阅读全文

posted @ 2017-06-23 17:15 Super_Orco 阅读(15899) 评论(0) 推荐(1) 编辑

spark2.10安装部署（集成hadoop2.7+）

摘要：这里默认你的hadoop是已经安装好的，master是node1，slaver是node2-3，hdfs启动在node1，yarn启动在node2，如果没安装好hadoop可以看我前面的文章因为这里是spark和hadoop集成，我已经预先启动好了hdfs 和 yarn；MapReduce His 阅读全文

posted @ 2017-06-23 16:11 Super_Orco 阅读(6950) 评论(0) 推荐(0) 编辑

spark概述

摘要：Spark背景：MapReduce局限性 MapReduce框架局限性 1、仅支持Map和Reduce两种操作，提供给用户的只有这两种操作 2、处理效率低效 Map中间结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据任务调度和启动开销大：mr的启动开销一，客户端需要把应用程序提阅读全文

posted @ 2017-06-22 17:30 Super_Orco 阅读(1264) 评论(0) 推荐(0) 编辑

Super_Orco

随笔分类 - spark core

公告