2016年8月2日

七、rdd究竟是什么

摘要: RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法: def getPartitions: Array[Partition] def compute(thePart: Partition, context: TaskContext): Ne 阅读全文

posted @ 2016-08-02 22:23 小丑鱼快跑 阅读(427) 评论(0) 推荐(0) 编辑

六、spark常见问题总结(转载)

摘要: 问题导读 1、当前集群的可用资源不能满足应用程序的需求,怎么解决? 2、内存里堆的东西太多了,有什么好办法吗? 1、WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster uito 阅读全文

posted @ 2016-08-02 22:22 小丑鱼快跑 阅读(685) 评论(0) 推荐(0) 编辑

五、RDD持久化

摘要: Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快 阅读全文

posted @ 2016-08-02 22:20 小丑鱼快跑 阅读(2532) 评论(0) 推荐(0) 编辑

四、spark常用函数说明学习

摘要: 1、parallelize 并行集合,切片数。默认为这个程序所分配到的资源的cpu核的个数。 查看大小:rdd.partitions.size sc.paralielize(1 to 100,2) 2、rdd持久化 persist() cache() persist() cache() persis 阅读全文

posted @ 2016-08-02 22:15 小丑鱼快跑 阅读(293) 评论(0) 推荐(0) 编辑

三、spark入门:文本中发现5个最常用的word,排除常用停用词

摘要: package com.yl.wordcountimport java.io.Fileimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.Iteratorimport scala.io.Source/** 阅读全文

posted @ 2016-08-02 22:12 小丑鱼快跑 阅读(1188) 评论(0) 推荐(0) 编辑

二、spark入门之spark shell:文本中发现5个最常用的word

摘要: scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md") scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.is 阅读全文

posted @ 2016-08-02 22:07 小丑鱼快跑 阅读(1334) 评论(0) 推荐(0) 编辑

一、spark入门之spark shell:wordcount

摘要: 1、安装完spark,进入spark中bin目录: bin/spark-shell scala> val textFile = sc.textFile("/Users/admin/spark/spark-1.6.1-bin-hadoop2.6/README.md") scala> textFile. 阅读全文

posted @ 2016-08-02 22:05 小丑鱼快跑 阅读(844) 评论(0) 推荐(0) 编辑

导航