摘要:
RDD编程API: 1,RDD中的所有转换(Transformation)都是延迟加载的,也就是说,它们并不会直接计算结果,只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行spark 常见算子总结(其一) package day02 import org.apache.spark.{SparkConf, Spa... 阅读全文
摘要:
RDD 的介绍: 1,一组分片。数据集的基本单位,每个分片都被一个计算任务进行处理,相当于集群分节点。默认是CPU的 core数,创建RDD过程可以指定分片数量 2,一个计算每个分区的函数,RDD之中计算是按照分片为单位的,每一个分片都会实现computer函数来达到这个目的 3,RDD的每一次转换都生成一个新的RDD,所以RDD之间形成流水线的前后依赖,如果RDD丢失,完全可以... 阅读全文
摘要:
scala 模式匹配可以匹配多种,包括元组数组集合 package day01 import scala.util.Random object match1{ def main(args: Array[String]): Unit = { val arr = Array("a","b","c") val name = arr(Random.nextInt(arr.le... 阅读全文
摘要:
scala private关键字 package day01 // class 之前 private只能在本包之中进行访问! // val p = new day01.privetDemo //it is error //构造器列表之前加 private 表示只能伴生对象能进行访问! private [day01] class privetDemo private (val f... 阅读全文
摘要:
object 静态类: 1,scala 之中是没有静态方法和静态字段的,可以使用 object 关键字加类名的语法结构来实现的 2,工具类,存放常量和工具方法 3,实现单例模式 package day01 import scala.collection.mutable.ArrayBuffer object Test12 { def main(args: Array[String]):... 阅读全文