spark中读取路径下的多个文件(spark textFile读取多个文件)

1.spark textFile读取File#

1.1 简单读取文件

1
2
3
4
5
6
7
8
9
10
val spark = SparkSession.builder()
    .appName("demo")
    .master("local[3]")
    .getOrCreate()
 
// 读取hdfs文件目录
spark.sparkContext.textFile("/user/data")
spark.sparkContext.textFile("hdfs://10.252.51.58:8088/user/data")
// 读取本地目录
spark.sparkContext.textFile("file://user/data")

  

1.2 正则模式读取文件

1
2
3
4
5
6
7
val spark = SparkSession.builder()
    .appName("demo")
    .master("local[3]")
    .getOrCreate()
 
// 读取hdfs文件目录
spark.sparkContext.textFile("/user/data/201908/0[1-9]/*")
 

2.spark textFile读取多个File#

2.1 将多个文件变成一个 list 作为参数

正确写法:sc.TextFile( filename1 + "," + filename2 + "," + filename3)

1
2
3
4
5
6
7
8
val spark = SparkSession.builder()
    .appName("demo")
    .master("local[3]")
    .getOrCreate()
 
val fileList = Array("/user/data/source1","/user/data/source2","/user/data/source3")
// 读取hdfs文件目录
spark.sparkContext.textFile(fileList.mkString(","))

2.2 使用 union 连接

1
2
3
4
5
6
7
8
9
10
val spark = SparkSession.builder()
    .appName("demo")
    .master("local[3]")
    .getOrCreate()
 
val fileList = Array("/user/data/source1","/user/data/source2","/user/data/source3")
//array[RDD]
val fileRDD:Array[RDD[String]] = fileList.map(spark.sparkContext.textFile(_)
 
spark.sparkContext.union(fileRDD) 
 
posted @   Mrzxs  阅读(6284)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
menu