打赏

Spark RDD概念学习系列之如何创建RDD

 

  不多说,直接上干货!

 

 

创建RDD

  方式一:从集合创建RDD

  (1)makeRDD

  (2)Parallelize

注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。

 

  方式二:读取外部存储创建RDD

  Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。

  (1)多文件格式支持:

      

 

   (2)多文件系统支持:

      1)本地文件系统

      2)S3

      3)HDFS

 

  (3)数据库

      1)JdbcRDD

      2)spark-cassandra-connector(datastax/spark-cassandra-connector)

      3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

      4)Elasticsearch-Hadoop

 

posted @ 2017-06-04 17:41  大数据和AI躺过的坑  阅读(464)  评论(0编辑  收藏  举报