spark调用第三方工具spark-excel,文件过大,oom

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
/**
   * https://github.com/crealytics/spark-excel
   * @param sparkSession
   * @param filePath
   * @param header
   * @return
   */
  def sparkExcel(sparkSession: SparkSession, filePath: String, header: Boolean): DataFrame = {
    println("--------------------sparkExcel-----:", filePath)
    import com.crealytics.spark.excel._
    val df = sparkSession.read.excel(
      header = header,  // Required
      //      dataAddress = "'My Sheet'!B3:C35", // Optional, default: "A1"
      treatEmptyValuesAsNulls = true// Optional, default: true
      inferSchema = false// Optional, default: false
      addColorColumns = false// Optional, default: false
      //      timestampFormat = "MM-dd-yyyy HH:mm:ss",  // Optional, default: yyyy-mm-dd hh:mm:ss[.fffffffff]
            maxRowsInMemory = 20  // Optional, default None. If set, uses a streaming reader which can help with big files
      //      excerptSize = 10,  // Optional, default: 10. If set and if schema inferred, number of rows to infer schema from
      //      workbookPassword = "pass"  // Optional, default None. Requires unlimited strength JCE for older JVMs
    ).load(filePath)
 
    df.show(5)
 
    df
  }

  设置:maxRowsInMemory

posted on   龙&缘  阅读(1427)  评论(0编辑  收藏  举报

编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示