Spark RDD概念学习系列之如何创建RDD

　　不多说，直接上干货！

　　方式一：从集合创建RDD

　（1）makeRDD

　（2）Parallelize

注意：makeRDD可以指定每个分区perferredLocations参数，而parallelize则没有。

　　方式二：读取外部存储创建RDD

　　Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型，Spark同样支持。

　　（1）多文件格式支持：

　　（2）多文件系统支持：

　　　　　　1)本地文件系统

　　　　　　2)S3

　　　　　　3)HDFS

　　（3）数据库

　　　　　　1)JdbcRDD

　　　　　　2)spark-cassandra-connector（datastax/spark-cassandra-connector）

　　　　　　3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

　　　　　　4)Elasticsearch-Hadoop

posted @ 2017-06-04 17:41 大数据和AI躺过的坑阅读(487) 评论(0) 收藏举报

刷新页面返回顶部

大数据和人工智能躺过的坑