SparkCore系列(一)变换操作,查找取值操作

一：变换操作

rdd中有元组,元组只能是key,value结构,适用于下面很多方法

1.map

        val conf = new SparkConf().setAppName("HelloWorld").setMaster("local")
        val sc = new JavaSparkContext(conf).sc

        sc.textFile("/software/java/idea/data").collect().map(x=>println(x))  //几乎和sparksql一样

2.flatMap

        sc.textFile("/software/java/idea/data").collect()
                    .flatMap(x => x.split("\\|"))
                    .map(x=>println(x))     //将数组转换为单个对象

3.mapValues

        sc.textFile("/software/java/idea/data")
                    .flatMap(x => x.split("\\|")).map(x=>(x,1))
                    .mapValues(x=> x + 9) //对于 key value的rdd,循环value

4.flatMapValues

        sc.textFile("/software/java/idea/data").map(x=>(1,x))
                    .flatMapValues (x=>x.split("\\|"))//对于 key value的rdd,循环 float value
                    .collect().map(x => println(x))

5.filter

        val conf = new SparkConf().setAppName("HelloWorld").setMaster("local")
        val sc = new JavaSparkContext(conf).sc

        sc.textFile("/software/java/idea/data").collect()
                    .filter(x => x.contains("aa"))  //过滤操作

6.collect

        sc.textFile("/software/java/idea/data").map(x=>(1,x))
                    .collect().map(x => println(x))  //collection 是action操作,只有遇到action操作,才会执行

7.foreach

        sc.textFile("/software/java/idea/data").map(x=>(1,x))
                    .collect().foreach(x => println(x))//功能类似map

8.distinct

        sc.textFile("/software/java/idea/data").map(x=>(1,x)).distinct()//去重复
                    .collect().foreach(x => println(x))

二：查找取值操作

1.take

        val some = sc.textFile("/software/java/idea/data").take(1)//不排序随机取一个
        println(some.mkString("|"))

2.top

        val some = sc.textFile("/software/java/idea/data").top(1)//排序desc后取一个
        println(some.mkString("|"))

3.keys

        val some = sc.textFile("/software/java/idea/data")
                    .flatMap(x=>x.split("\\|")).map(x=>(x,1)).keys//取出来所有的key,仍然是rdd
        some.collect().map(x=>println(x))

4.values

        val some = sc.textFile("/software/java/idea/data")
                    .flatMap(x=>x.split("\\|")).map(x=>(1,x)).values//取出来所有的value,仍然是rdd
        some.collect().map(x=>println(x))

5.takeOrdered

        val some = sc.textFile("/software/java/idea/data")
                    .flatMap(x=>x.split("\\|")).map(x=>x.toInt)
                    .takeOrdered(3)//排序asc后取一个
        some.map(x=>println(x))

6.takeSample

        val data = sc.textFile("/software/java/idea/data")
                    .flatMap(x=>x.split("\\|")).map(x=>x.toInt)

        //第一个参数withReplacement ，表示采样是否放回，true表示有放回的采样，false表示无放回采样；
        //第二个参数num，表示返回的采样数据的个数，这个也是takeSample函数和sample函数的######7.区别；
        // 第三个参数seed，表示用于指定的随机数生成器种子 可选
        println(data.takeSample(true,3).mkString("|"))
        println(data.takeSample(true,3).mkString("|"))
        println(data.takeSample(true,3).mkString("|"))

8.lookup

        val data = sc.textFile("/software/java/idea/data")
                    .flatMap(x=>x.split("\\|")).map(x=>(x.toInt,x.toInt))

        println(data.lookup(2))//返回列表

posted @ 2019-12-08 21:23 Kotlin 阅读(278) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

Kotlin

SparkCore系列(一)变换操作,查找取值操作

一：变换操作

1.map

2.flatMap

3.mapValues

4.flatMapValues

5.filter

6.collect

7.foreach

8.distinct

二：查找取值操作

1.take

2.top

3.keys

4.values

5.takeOrdered

6.takeSample

8.lookup

公告

最新随笔

随笔分类

随笔档案