Scala - Spark Lambda“goesto“ => 分析

 1 /// 定义一个函数AddNoise,参数分别为rdd,Fraction。其中rdd为(BreezeDenseMatrix,  BreezeDenseMatrix)元组构成的RDD。Fraction为一个Double。返回一个(BreezeDenseMatrix,  BreezeDenseMatrix)元组构成的RDD。
 2 def AddNoise(rdd: RDD[(BDM[Double], BDM[Double])], Fraction: Double): RDD[(BDM[Double], BDM[Double])] = {
 3 /// 定义返回值临时储存,它由rdd中每个元素实现f=>STH构成
 4     val addNoise = rdd.map { f =>
 5 /// f中第二部分数据,为一个BreezeDenseMatrix
 6       val features = f._2
 7 /// 生成一个BreezeDenseMatrix,由随机数填充
 8       val a = BDM.rand[Double](features.rows, features.cols)
 9 /// 定义一个BreezeDenseMatrix a1,其中元素为bool型。如果a中对应元素大于Fraction,则为true。否则为false。
10       val a1 = a :>= Fraction
11 /// 定义一个RDD d1,由a1中元素经过如下运算后填充:如果当前元素为true,则为1.0,否则为0。
12       val d1 = a1.data.map { f => if (f == true) 1.0 else 0.0 }
13 /// 新建一个BreezeDenseMatrix,分别由于features相应位置对应的d1元素填充。
14       val a2 = new BDM(features.rows, features.cols, d1)
15 /// :*表示各元素依次相乘。得到BreezeDenseMatrix。
16       val features2 = features :* a2
17 /// 返回(BreezeDenseMatrix,BreezeDenseMatrix)构成的RDD。作为函数返回值,进而更新addNoise。
18       (f._1, features2)
19     }
20 /// 返回运算后的结果,作为函数返回值。
21     addNoise
22   }

这段代码是用Scala写的运行与Spark上的,NN算法中AddNoise实现。用来完成DenoiseAutoencoder的随机噪声添加。

思想很简单,但却把Spark的map操作和Scala的lambda运算符的用法展现的淋漓尽致,值得学习。

代码来自sunbow0

个人分析,有误请指正。

 

posted @ 2015-08-30 21:43  澄轶  阅读(364)  评论(0编辑  收藏  举报