【Spark】【RDD】从HDFS创建RDD

1.在HDFS根目录下创建目录(姓名学号)

hdfs dfs -mkdir /zwj25
hdfs dfs -ls /

访问 http://[IP]:50070

image-20211025002555544

image-20211025002652308

image-20211025002943200

image-20211025002957999

2.上传本地文件到HDFS

hdfs dfs -put file.txt /zwj25

image-20211025003059248

3.进入spark4-shell

var hdfsrdd=sc.textFile("/zwj25/file.txt")
hdfsrdd.collect
hdfsrdd.partitions
hdfsrdd.partitions.size

sc.defaultMinPartitions=min(sc.defaultParallelism,2)

rdd分区数=max(hdfs文件的block数目,sc.defaultMinPartitions)

image-20211025003157234

image-20211025003305459

posted @ 2021-10-25 00:40  萌狼蓝天  阅读(133)  评论(0编辑  收藏  举报