Java使用xlsx-streamer和EasyExcel解决读取超大excel文件数据处理方法
前言
最近有个项目在生产环境做数据导入时,发现开始执行导入任务会出现cpu狂飙的情况。几番定位查找发现是在读取excel的时候导致此问题的发生,因此在通常使用的为POI的普通读取,在遇到大数据量excel,50MB大小或数五十万行的级别的数据容易导致读取时内存溢出或者cpu飙升。需要注意,本文讨论的是针对xlsx格式的excel文件上传。
关于Excel相关技术
在Java技术生态圈中,可以进行Excel处理的主流技术包括:Apache POI,JXL,Alibaba EasyExcel等。由于JXL只支持Excel2003以下版本,所以不太常见。
Apache POI:基于DOM方式进行解析,将文件直接加载内存,所以速度较快,适合Excel文件数量不大的应用场景
Alibaba EasyExcel:采用逐行读取的解析模式,将每一行的解析结果以观察者模式通知处理(AnalyEventListener),所以比较适合数据体量较大的Excel文件解析。
问题代码
这种方式POI会把文件的所有内容都加载到内存中,读取大的excel文件时很容易占用大量内存导致oom的发生,全部文件加载如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | /** * POI方式读取excel * * @param file */ public static void readExcelByPoi(File file) { long start = System.currentTimeMillis(); //整个文件都一块载入 try (InputStream inp = new FileInputStream(file); Workbook wb = WorkbookFactory.create(inp)) { log.info( "==读取excel完毕,耗时:{}毫秒," , System.currentTimeMillis() - start); Sheet sheet = wb.getSheetAt( 0 ); //更新总数 System.out.println( "读取结束行数:" + sheet.getLastRowNum()); } catch (Exception e) { e.printStackTrace(); } } |
当前引入的poi依赖
1 2 3 4 5 6 | <!-- excel工具 --> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version> 4.1 . 0 </version> </dependency> |
读取50MB我本地字段不是很多50万行数据
首先在读取excel文件的断点执行之前的cpu和内存的占用分别为50%和42%,上传的excel大小为50MB,这里我就不一一带大家测试了,以上此种方式肯定是行不通的。
解决方案一:xlsx-streamer
我们采用分段缓存的方式加载数据到内存中,此种方式在创建Workbook对象时借助xlsx-streamer(StreamingReader) 来创建一个缓冲区域批量地读取文件 ,因此不会将整个文件实例化到对象当中,代码如下:
引入依赖:
1 2 3 4 5 6 7 8 9 10 11 12 | <!-- excel工具 --> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version> 4.1 . 0 </version> </dependency> <!-- 读取大量excel数据时使用 --> <dependency> <groupId>com.monitorjbl</groupId> <artifactId>xlsx-streamer</artifactId> <version> 2.1 . 0 </version> </dependency> |
示例代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | /** * 大批量数据读取 十万级以上 * 思路:采用分段缓存加载数据,防止出现OOM的情况 * * @param file * @throws Exception */ public static void readLagerExcel(File file) throws Exception { InputStream inputStream = new FileInputStream(file); long start = System.currentTimeMillis(); try (Workbook workbook = StreamingReader.builder() .rowCacheSize( 10 * 10 ) //缓存到内存中的行数,默认是10 .bufferSize( 1024 * 4 ) //读取资源时,缓存到内存的字节大小,默认是1024 .open(inputStream)) { //打开资源,可以是InputStream或者是File,注意:只能打开.xlsx格式的文件 Sheet sheet = workbook.getSheetAt( 0 ); log.info( "==读取excel完毕,耗时:{}毫秒," , System.currentTimeMillis() - start); //遍历所有的行 for (Row row : sheet) { System.out.println( "开始遍历第" + row.getRowNum() + "行数据:" ); //遍历所有的列 for (Cell cell : row) { System.out.print(cell.getStringCellValue() + " " ); } System.out.println( " " ); } //总数 System.out.println( "读取结束行数:" + sheet.getLastRowNum()); } } |
解决方案二:EasyExcel
使用EasyExcel解决大文件Excel内存溢出的问题,基于POI进行封装优化,可以在不考虑性能、内存的等因素的情况下,快速完成Excel的读、写等功能。
官网: https://easyexcel.opensource.alibaba.com/
github:https://github.com/alibaba/easyexcel
引入依赖
1 2 3 4 5 6 | <!--easyExcel工具--> <dependency> <groupId>com.alibaba</groupId> <artifactId>easyexcel</artifactId> <version> 3.3 . 1 </version> </dependency> |
示例代码
仅做简单读取示例:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | /** * EasyExcel方式读取excel * 读取并封装为对象,ExcelData大家需要的对象 * @param file */ public static void readExcelByEasyExcel(File file) { long start = System.currentTimeMillis(); List<ExcelData> excelDataList = EasyExcel.read(file).head(ExcelData. class ).sheet( 0 ).doReadSync(); excelDataList.stream().forEach(x -> System.out.println(x.toString())); log.info( "==读取excel完毕,耗时:{}毫秒," , System.currentTimeMillis() - start); } /** * EasyExcel方式读取excel * 不指定head类 * @param file */ public static void readExcelByEasyExcel1(File file) { long start = System.currentTimeMillis(); List<Map<Integer, String>> listMap = EasyExcel.read(file).sheet( 0 ).doReadSync(); listMap.stream().forEach(x -> System.out.println(JSON.toJSONString(x))); log.info( "==读取excel完毕,耗时:{}毫秒," , System.currentTimeMillis() - start); } |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
2020-07-27 后端Long类型传到前端精度丢失的正确解决方式