SpringBoot图文教程14—阿里开源EasyExcel「为百万数据读写设计」

原文
EasyExcel 是阿里巴巴开源的一个Java操作Excel的技术,和EasyPoi一样是封装Poi的工具类。但是不同的地方在于,在EasyExcel中解决了Poi技术读取大批量数据耗费内存的问题。当然了,也封装了很多常用的Excel操作

  • 最基本的导入导出
  • 图片的导入导出
  • 百万数据的导入导出

官方地址:https://alibaba-easyexcel.github.io/quickstart/write.html

最基本的导入导出

最基本的导入导出,要导出的数据的实体类如下:

public class Teacher {
    /**
     * 老师的主键
     */
    private Integer teacherId;
    /**
     * 名字
     */
    private String teacherName;
    /**
     * 头像图片地址
     */
    private String teacherImage;
    /**
     * 老师的状态 0代表正常 1代表删除
     */
    private Integer teacherStatus;
}
复制代码

省略get set

1.导入依赖

<dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>easyexcel</artifactId>
            <version>2.0.5</version>
        </dependency>
复制代码

2.给要导出数据实体类加注解

EasyExcel也是注解式开发,常用注解如下

  • ExcelProperty 指定当前字段对应excel中的那一列
  • ExcelIgnore 默认所有字段都会和excel去匹配,加了这个注解会忽略该字段
  • DateTimeFormat 日期转换,用String去接收excel日期格式的数据会调用这个注解。里面的value参照java.text.SimpleDateFormat
  • NumberFormat 数字转换,用String去接收excel数字格式的数据会调用这个注解。里面的value参照java.text.DecimalFormat

img

3.直接导入导出

导出代码

   /**
     * 基本的导出
     */
    @Test
    public void test1(){
//        准备数据
        List<Teacher> teachers = new ArrayList<>();
        teachers.add(new Teacher(1,"hhh","hhh.jpg",1));
        teachers.add(new Teacher(1,"hhh","hhh.jpg",1));
        teachers.add(new Teacher(1,"hhh","hhh.jpg",1));
        teachers.add(new Teacher(1,"hhh","hhh.jpg",1));

        String fileName =  "/Users/lubingyang/Desktop/hhhh.xlsx";
        // 这里 需要指定写用哪个class去写,然后写到第一个sheet,名字为模板 然后文件流会自动关闭
        // 如果这里想使用03 则 传入excelType参数即可
        EasyExcel.write(fileName, Teacher.class).sheet("模板").doWrite(teachers);


    }
复制代码

导入代码

关于EasyExcel的数据读取会稍微麻烦一点,直接通过工具类读取到的数据不能直接处理,需要借助一个中间的类 监听器 类,大致的流程如下图

img

监听器的代码如下,有详细的注释

package com.lu.booteasyexcel;

import com.alibaba.excel.context.AnalysisContext;
import com.alibaba.excel.event.AnalysisEventListener;
import com.lu.booteasyexcel.dao.TeacherDao;
import com.lu.booteasyexcel.entity.Teacher;

import java.util.ArrayList;
import java.util.List;

// 有个很重要的点 DemoDataListener 不能被spring管理,要每次读取excel都要new,然后里面用到spring可以构造方法传进去
public class DemoDataListener extends AnalysisEventListener<Teacher> {
    /**
     * 每隔5条存储数据库,实际使用中可以3000条,然后清理list ,方便内存回收
     */
    private static final int BATCH_COUNT = 5;

    /**
     * 这个集合用于接收 读取Excel文件得到的数据
     */
    List<Teacher> list = new ArrayList<Teacher>();

    /**
     * 假设这个是一个DAO,当然有业务逻辑这个也可以是一个service。当然如果不用存储这个对象没用。
     */
    private TeacherDao teacherDao;

    public DemoDataListener() {

    }

    /**
     *
     * 不要使用自动装配
     * 在测试类中将dao当参数传进来
     */
    public DemoDataListener(TeacherDao teacherDao) {
        this.teacherDao = teacherDao;
    }

    /**
     * 这个每一条数据解析都会来调用
     *
     */
    @Override
    public void invoke(Teacher teacher, AnalysisContext context) {

        list.add(teacher);
        // 达到BATCH_COUNT了,需要去存储一次数据库,防止数据几万条数据在内存,容易OOM
        if (list.size() >= BATCH_COUNT) {
            saveData();
            // 存储完成清理 list
            list.clear();
        }
    }

    /**
     * 所有数据解析完成了 都会来调用
     *
     */
    @Override
    public void doAfterAllAnalysed(AnalysisContext context) {
        // 这里也要保存数据,确保最后遗留的数据也存储到数据库
        saveData();

    }

    /**
     * 加上存储数据库
     */
    private void saveData() {
//        在这个地方可以调用dao  我们就直接打印数据了
        System.out.println(list);
    }
}
复制代码

注意:

  1. 监听器这个类不能够被Spring管理,每次使用单独的new出来

导入的代码如下:

 /**
     * 添加数据库用到的dao
     */
    @Autowired
    private TeacherDao teacherDao;
    /**
     * 最简单的读
     */
    @Test
    public void simpleRead() {
        String fileName =  "/Users/lubingyang/Desktop/hhhh.xlsx";

        // 这里 需要指定读用哪个class去读,然后读取第一个sheet 文件流会自动关闭
        /**
         * 参数1 要读取的文件
         * 参数2 要读取的数据对应的实体类类对象
         * 参数3 监听器对象 可以在创建的时候把dao当做参数传进去
         */
        EasyExcel.read(fileName, Teacher.class, new DemoDataListener(teacherDao)).sheet().doRead();


    }
复制代码

读取的结果如下:

img

图片的导出

在EasyExcel中支持多种图片的导入导出,什么意思呢?一般情况下,数据库表中的图片字段存储的是图片路径,读取图片文件导出是支持的,除此之外,还支持网络路径,流,字节数组等方式。我的案例以读取本地图片文件为主。

官方文档地址:https://alibaba-easyexcel.github.io/quickstart/write.html#图片导出

实体类改造

img

导出的代码是【不需要做任何改变】

img

百万数据导入导出

EasyExcel最大的特点就是能够避免内存溢出,那么是怎么做到的呢?

首先我们说一下为什么Poi会有内存溢出的风险

Poi在读取Excel文件的时候,会先将所有的数据都读取的内存中,再进行处理。这个时候如果读取的文件数据量比较大,就会发生java.lang.OutOfMemoryError: Java heap space错误。

那么EasyPoi是怎么做的呢?

  1. EasyPoi 不会一次性把整个文件读取到内存中,而是用过流,一边读取一边处理

  2. 在处理的时候,EasyPoi采用读取一条数据就处理一条的方法,保证了不在内存中存储太多的数据,可以自己设置一个界限,例如设置每500条存储一次数据库。

    img

接下来我们通过代码测试一下百万数据的导入和导出

官网有性能测试,需要的话可以查看官网的测试:https://alibaba-easyexcel.github.io

百万数据导出

思路

  1. 分页读取数据
  2. 将每次读取到的数据写入Excel
  3. 抛弃样式,字体等不重要的数据

准备一个百万数据的用户表

img

用户实体类如下:

@Data
public class CmfzUser implements Serializable {
   @ExcelIgnore
    private Integer userId;
    @ExcelProperty("手机号")
    private String userTelphone;
    private String userPassword;
    @ExcelProperty("头像地址")
    private String userImage;
    @ExcelProperty("昵称")
    private String userNickname;
    @ExcelProperty("名字")
    private String userName;
    @ExcelProperty("性别")
    private String userSex;
    @ExcelProperty("个性签名")
    private String userAutograph;
    @ExcelProperty("省份")
    private String userProvince;
    @ExcelProperty("城市")
    private String userCity;
    @ExcelIgnore
    private Integer guruId;
    @ExcelIgnore
    private Integer userStatus;
    @ExcelIgnore
    private Date userCreateDate;

}
复制代码

代码:

    @Test
    public void test10() throws IOException {
        Date start = new Date();
//        一百万数据 分页查询数据库
        Integer userCount = 1000000;
        Integer size = 20000;
        Integer pageCount = userCount / size + 1;


        List<CmfzUser> users = null;
        String fileName =  "/Users/lubingyang/Desktop/大数据.xlsx";

        // 这里 需要指定写用哪个class去写
        ExcelWriter excelWriter = EasyExcel.write(fileName, CmfzUser.class).build();

//        这里注意 如果同一个sheet只要创建一次
        WriteSheet writeSheet = EasyExcel.writerSheet("大数据").build();

//        查询测试 页数  每次查询20w条数据
        for (int i = 1; i <= pageCount; i++) {
            System.out.println(i);
            users = userDao.selectPage(new Page<>(i, size), null).getRecords();
//            数据写出
            excelWriter.write(users, writeSheet);

            users.clear();
        }


        Date end = new Date();
        System.out.println(new Date().getTime() - start.getTime()+"ms");

        // 千万别忘记finish 会帮忙关闭流
        excelWriter.finish();

    }
复制代码

执行的总时间为:

img

百万数据读取

百万数据的Excel文件是不能通过Poi直接读取的,我测试了一下,发生一下异常

img

如果要使用Poi的话 需要做一些处理 接下来我们通过EasyExcel看一下效果

使用EasyExcel读取文件分为两步:

  1. 创建监听器
  2. 读取

监听器代码

public class UserDataListener extends AnalysisEventListener<CmfzUser> {

    List<CmfzUser> list = new ArrayList<>();

    /**
     * 假设这个是一个DAO,当然有业务逻辑这个也可以是一个service。当然如果不用存储这个对象没用。
     */
    private CmfzUserDao userDao;

    public UserDataListener() {

    }

    /**
     *
     * 不要使用自动装配
     * 在测试类中将dao当参数传进来
     */
    public UserDataListener(CmfzUserDao userDao) {
        this.userDao = userDao;
    }

    /**
     * 这个每一条数据解析都会来调用
     *
     */
    @Override
    public void invoke(CmfzUser user, AnalysisContext context) {

        list.add(user);
        // 可以设置超过500条了,需要去存储一次数据库,防止数据几万条数据在内存,容易OOM
        if (list.size() >= 3000) {
            saveData();
            // 存储完成清理 list
            list.clear();
        }
    }

    /**
     * 所有数据解析完成了 都会来调用
     *
     */
    @Override
    public void doAfterAllAnalysed(AnalysisContext context) {
        // 这里也要保存数据,确保最后遗留的数据也存储到数据库
        saveData();

    }

    /**
     * 加上存储数据库
     */
    private void saveData() {
//        在这个地方可以调用dao  我们就直接打印数据了
teacherDao.addList(list);
        System.out.println("存储数据:"+list.size()+"条");
    }
}
复制代码

读取代码

 @Test
    public void test4(){
        String fileName =  "/Users/lubingyang/Desktop/大数据.xlsx";

        // 这里 需要指定读用哪个class去读,然后读取第一个sheet 文件流会自动关闭
        /**
         * 参数1 要读取的文件
         * 参数2 要读取的数据对应的实体类类对象
         * 参数3 监听器对象 可以在创建的时候把dao当做参数传进去
         */
        EasyExcel.read(fileName, CmfzUser.class, new UserDataListener(userDao)).sheet().doRead();


    }
复制代码

代码是可以完美运行的

img

posted @ 2020-03-17 14:15  xj-record  阅读(5876)  评论(0编辑  收藏  举报