关闭页面特效

本篇来介绍一下通过Spark来读取和HDFS上的数据，主要包含四方面的内容：将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。

1、启动Hadoop

首先启动咱们的Hadoop，在hadoop的目录下执行下面的命令：

rm -rf tmp 
mkdir tmp
cd sbin
hadoop namenode -format
start-dfs.sh
start-yarn.sh

查看是否启动成功：

2、将RDD写入HDFS

先创建一个SparkSession：

val spark = SparkSession
      .builder()
      .appName("Spark SQL basic example")
      .enableHiveSupport()
      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")

将RDD写入HDFS使用的函数是saveAsTextFile：

val modelNames = Array("FM","FFM","DEEPFM","NFM","DIN","DIEN")
val modelNamesRdd = spark.sparkContext.parallelize(modelNames,1)
modelNamesRdd.saveAsTextFile("hdfs://localhost:9000/user/root/modelNames")

接下来，我们查看一下是否保存成功：

可以看到RDD在HDFS上是分块存储的，由于我们只有一个分区，所以只有part-0000。假设我们存储一个包含两个分区的RDD：

val modelNames3 = Array("FM","FFM","DEEPFM","NFM","DIN","DIEN")
val modelNames3Rdd = spark.sparkContext.parallelize(modelNames3,2)

modelNames3Rdd.saveAsTextFile("hdfs://localhost:9000/user/root/modelNames3")

再次查看，可以看到有part-00000和part-00001:

3、读取HDFS上的文件

读取HDFS上的文件，使用textFile方法：

 val modelNames2 = spark.sparkContext.textFile("hdfs://localhost:9000/user/root/modelNames/part-00000")

val modelNames4 = spark.sparkContext.textFile("hdfs://localhost:9000/user/root/modelNames3/")

读取时是否加最后的part-00000都是可以的，当只想读取某个part，则必须加上。

4、将HDFS上的文件添加到Driver

有时候，我们并不想直接读取HDFS上的文件，而是想对应的文件添加到Driver上，然后使用java或者Scala的I／O方法进行读取，此时使用addFile和get方法来实现：

val files = "hdfs://localhost:9000/user/root/modelNames/part-00000"
spark.sparkContext.addFile(files)
val path = SparkFiles.get("part-00000")
println(path)

打印的路径十分奇怪，没有截取完全：

然后有了path之后，就可以使用scala的I／O进行读取：

val source = Source.fromFile(path)
val lineIterator = source.getLines
val lines =lineIterator.toArray
println(lines.mkString(","))

输出为：

FM,FFM,DEEPFM,NFM,DIN,DIEN

5、判断HDFS上文件路径是否存在

在读取HDFS地址或者将文件传输到Driver上的时候，首先需要判断文件是否存在。单机环境下，代码如下：

val conf = spark.sparkContext.hadoopConfiguration

val path = new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames/part-00000")
val fs = path.getFileSystem(conf) //得hdfs文件系统中的路径信息

val modelNamesExists = fs.exists(path)
val modelNames1Exists = fs.exists(new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames1/part-00000"))

println(modelNamesExists)
println(modelNames1Exists)

输出结果为：

true
false

而在公司中的大规模集群环境下，通常的代码如下：

val conf = spark.sparkContext.hadoopConfiguration
val fs = org.apache.hadoop.fs.FileSystem.get(conf)

val modelNamesExists = fs.exists(new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames/part-00000"))
val modelNames1Exists = fs.exists(new org.apache.hadoop.fs.Path("hdfs://localhost:9000/user/root/modelNames1/part-00000"))

println(modelNamesExists)
println(modelNames1Exists)

如果在本地单机环境下仍然使用上面的代码，会报如下的错误：

Wrong FS: hdfs://localhost:9000/user/root/modelNames/part-00000, expected: file:///

所以对比两份代码你可以发现，在本地环境中，我们首先使用getFileSystem获取了hdfs文件系统中的路径信息，从而避免了上面的错误。

好了，今天的知识就分享到这里，小伙伴们都掌握了么？

posted on 2020-09-08 17:08 大码王阅读(1057) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

青青陵上柏，磊磊涧KF&

运行时长：2258天0小时56分43秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

1、启动Hadoop

2、将RDD写入HDFS

3、读取HDFS上的文件

4、将HDFS上的文件添加到Driver

5、判断HDFS上文件路径是否存在

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏