spark调用第三方工具spark-excel,文件过大,oom - 龙&缘 - 博客园

spark调用第三方工具spark-excel,文件过大,oom

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

/**
   * https://github.com/crealytics/spark-excel
   * @param sparkSession
   * @param filePath
   * @param header
   * @return
   */
  def sparkExcel(sparkSession: SparkSession, filePath: String, header: Boolean): DataFrame = {
    println("--------------------sparkExcel-----:", filePath)
    import com.crealytics.spark.excel._
    val df = sparkSession.read.excel(
      header = header,  // Required
      //      dataAddress = "'My Sheet'!B3:C35", // Optional, default: "A1"
      treatEmptyValuesAsNulls = true,  // Optional, default: true
      inferSchema = false,  // Optional, default: false
      addColorColumns = false,  // Optional, default: false
      //      timestampFormat = "MM-dd-yyyy HH:mm:ss",  // Optional, default: yyyy-mm-dd hh:mm:ss[.fffffffff]
            maxRowsInMemory = 20  // Optional, default None. If set, uses a streaming reader which can help with big files
      //      excerptSize = 10,  // Optional, default: 10. If set and if schema inferred, number of rows to infer schema from
      //      workbookPassword = "pass"  // Optional, default None. Requires unlimited strength JCE for older JVMs
    ).load(filePath)
 
    df.show(5)
 
    df
  }

　　设置:maxRowsInMemory

posted on 2020-08-11 18:05 龙&缘阅读(1427) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列：如何用 C#调用 C方法造成内存泄露

阅读排行：
· 终于写完轮子一部分：tcp代理了，记录一下
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 别再用vector＜bool＞了！Google高级工程师：这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

导航

统计

随笔 - 30
文章 - 9
评论 - 1
阅读 - 14856

公告

昵称：龙&缘
园龄： 6年9个月
粉丝： 0
关注： 1

随笔分类

随笔档案

阅读排行榜

评论排行榜

1. Flink 消费RabbitMQ 和 Kafka(1)

推荐排行榜

1. 官网jdk8,jdk11下载时需要登录Oracle账号的问题解决(1)

最新评论

1. Re:Flink 消费RabbitMQ 和 Kafka
有沒有更具体一些资料，这里面的类不知道是不是我版本的问题是没有的
--boke大