Spark读取HDFS某个路径下的子文件夹中的所有文件
解决办法:使用*
验证:
在hdfs某个路径下新建两个文件夹,然后分别上传一个文件到新建好的子文件夹中
[user1@hdp ~]$ hdfs dfs -mkdir /tmp/test [user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data1 [user1@hdp ~]$ hdfs dfs -mkdir /tmp/test/data2 [user1@hdp ~]$ hdfs dfs -put test1.txt /tmp/test/data1/ [user1@hdp ~]$ hdfs dfs -put test2.txt /tmp/test/data2/
其中test1.txt的内容为
hello world
java scala
spark hadoop
test2.txt的内容为
shanghai nanjing
hangzhou wuhan
然后在spark-shell中读取
scala> spark.sparkContext.textFile("/tmp/test/*").collect() res0: Array[String] = Array(hello world, java scala, spark hadoop, shanghai nanjing, hangzhou wuhan)
可以看到已经读取到了test两个子目录下的文件。
标签:
Spark
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决
2019-07-27 Cloudera Manager和CDH版本的对应关系