动手实战创建RDD的三种方式--(视频笔记)
1、通过scala集合(数组,range)
val collection = sc.parallelize(1 to 10000)
2、在hdfs或者hbase
val hdfsData = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat")
3、其他的RDD转换。
val wordcount = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat").flatMap(_.split(" ")).map(word => (word,1)).reduceByKey(_+_)
以上命令都是在spark-shell中执行的