spark filter

filter是一个transformation 类的算子:过滤符合条件的记录数,true保留,false过滤掉。

 

 查看idea提示:输入和数据有关系,本次输入的是一个元组(String,Int),输出是一个Boolean类型的变量

 

需求:就元组的第一个字符包含"Caused"的过滤输出

方式一:

val data:RDD[String]=spark.sparkContext.textFile(datapath)
    data.map(x=>(x,1)).filter(fun).foreach(println)
    def fun(line:(String,Int)):Boolean={
      line._1.contains("Caused")
    }

方式二:

 val data:RDD[String]=spark.sparkContext.textFile(datapath)
    data.map(x=>(x,1)).filter(x=>x._1.contains("Caused")).foreach(println)

 

posted @ 2020-12-31 13:50  bioamin  阅读(510)  评论(0编辑  收藏  举报