通用的高度可扩展的Excel导入实现(附Demo)
背景
通过程序将excel导入到数据库中是一项非常常见的功能。通常的做法是:先将excel转成DataTable,然后将DataTable转换成List<T>,最终通过List<T>导入进数据库。
同时,一般的ExcelUtil基类也会提供类似List<T> GetEntityListFromFile<T>(string fileName)的实现,但是这些实现一般都是机械化地对应,缺少一些自定义的操作。
问题
在我的开发过程中,就导入excel这一块就碰到了以下的一些问题:
- excel中的列名可能不止一个(客户可能没有下载模板或者模板的版本不对,导致同一列可能有多个列名,例如【ID】和【编号】可能都对应实体类中的【ID】列)
- excel中的列可能对应着实体类中的多个列(例如实体类中有【ID】、【Name】两个字段,而excel模板中只有【ID】,我们需要通过excel中的【ID】从数据库中找到Name值去填充实体类的【Name】)
- 需要对excel中某些数据的有效性做验证,包括但不限于“数据类型有效”,“数据在数据库中的存在性”,“数据在数据库中的状态有效”等等
- 需要对excel中的某些列进行自定义的映射(例如实体类和excel中都有【Status】,我们需要将excel中的【Status】写“1”和写“激活”的都填充实体类的【Status】为“1”)
以上这些问题,仅仅通过基类提供的方法是无法实现的,所以本篇文章提供一种高度自定义的Excel导入通过模块的实现,期以解决以上问题。
Demo程序结构概览
ps:要下班了,今日就先发这么多,
大家可以先下Demo看一下,功能都实现了,有问题可以大家一起交流,
如果大家想知道具体流程,我就再添加。
实现思路
首先,需要明确的是我们的需求:
- 使用c#技术,将excel导入到程序中,并以List<Entity>的形式进行存在
- 可以自定义excel的列名和Entity中属性的对应关系,支持excel中多个列名对应Entity中同一个属性,也支持Entity中的多个属性对应excel中的一个列名
- 可以自定义excel中列的值转换函数,假设excel中有“状态”列对应到Entity中的Status属性,在excel中的“状态”列中写【激活】或者【1】,最终都对应到Status的【true】
- 可以自定义excel中列的值有效性验证函数
接下来,就简要讲述一下以上功能的实现:
- 类【public class ImportUtil<Entity> where Entity : new()】实现了excel的导入功能,Entity为实体类类型
/// <summary> /// 高度可扩展的excel导入 By Dean 20140320 /// 应用场景:1 需要支持实体类属性和excel中列的一对多关系 如excel中的列名是JHB、聚好币、PV时候,均认为映射到实体中的JHB字段 ///2 需要支持实体类属性和excel中列的多对一关系 如excel中只包含“名称”列,有同时填充实体类的Code & Name属性时,可以将Code属性也对应到“名称”列,然后写一个转换函数,通过“名称”从DB中取出Code再映射 /// 功 能:1 可以自动剔除全部为空的行 /// 2 能够自定义地设置将excel中的列映射到实体类上的哪个字段,以及映射的方法 /// 3 能够对excel中的数据的有效性进行自定义的检查 /// </summary> /// <typeparam name="Entity"></typeparam> public class ImportUtil<Entity> where Entity : new()
- ImportUtil类中有唯一的构造函数【public ImportUtil(Dictionary<string, string> allColumns)】
public ImportUtil(Dictionary<string, string> allColumns) { AllColumns = allColumns; }
//实体类列和excel列的对应关系 Dictionary<string, string> allColumns = new Dictionary<string, string> { {"ID","编号"}, {"StudentID","学生编号|学生ID"},{"StudentName","学生编号|学生ID"}, {"DisciplineID","学科编号"},{"DisciplineName","学科编号"}, {"Score","学科分数"}, {"MakeUpExamTime","补考日期"} };
该构造函数传入参数allColumns,是一个Dictionary<string,string>类型的,该参数实现了需求2,字典的Key是实体类Entity中的【属性名称】,字典的Value是excel中的【列名称】,使用|来支持excel的多列名。
- ImportUtil类中有唯一的对外公开的方法【public List<Entity> GetEntityList】
/// <summary> /// 根据excel文件名获取实体类列表 《唯一向外部公开的接口》 /// </summary> /// <param name="fileName">excel文件名</param> /// <param name="errorInfo">导入过程中的任何错误信息都会放到这里面</param> /// <param name="converterFields">需要进行预定义类型转换的列</param> /// <param name="customConverts">需要进行自定义类型转换(key是实体类对应的列,value是包含excel中对应列的值和操作后的返回值的Func)</param> /// <param name="dataValidateChecks">在进行excel列映射到实体类之前,对excel列中的值进行的预检查</param> /// <returns>实体类列表</returns> public List<Entity> GetEntityList(string fileName, List<string> errorInfo, Dictionary<KnownDataType, List<string>> converterFields = null, Dictionary<string, Func<object, object>> customConverts = null, Dictionary<string, Func<object, string>> dataValidateChecks = null)
该方法有5个输入参数,其中fileName和errorInfo是必输的,方法最终返回的就是我们所需要的List<Entity>,方法的执行过程就是先通过excel的地址将excel导入称为DataTable,然后将DataTable转换成List<T>,在转换的过程中进行数据的有效性验证和数据值的类型转换。
下面简单介绍一下这5个参数:
- fileName,string,需要导入的excel的地址;
- errorInfo,List<string>,导入过程中所发生的错误信息;
- convertFields,Dictionary<KnownDataType,List<string>>,预定义的类型转换;excel中的列都是object类型的,而Entity中的属性却是强类型的,对于Int,Decimal,Double,DateTime已经定义好了相关的转换函数,仅需将Entity属性名称传入,在进行DataTable转List<Entity>时就能够将对应Column的值进行预定义的类型转换
//预定义类型转换 Dictionary<KnownDataType, List<string>> convertFields = new Dictionary<KnownDataType, List<string>> { {KnownDataType.Int, new List<string> {"ID", "StudentID", "DisciplineID"}}, {KnownDataType.Double, new List<string> {"Score"}} };
- customConverts,Dictionary<string,Func<object,object>>,自定义的类型转换;预定义的类型转换通常只是将excel中的列转成对应的类型或者给个默认值,是通用的操作,但是我们常常需要对excel中的列进行自定义的转换,例如:excel中有“编号”列,设置同时对应到Entity的“ID”、“Name”属性,而“ID”属性可以直接使用预定义转换完成,“Name”列则需要通过“编号”从数据库中找到“Name”再赋值给“Name”。因此,这时候我们需要自定义的转换。写法如下:
//自定义类型转换 Dictionary<string, Func<object, object>> customConverts = new Dictionary<string, Func<object, object>> { { "StudentName", currColumn => { int studentID; if (currColumn != null && int.TryParse(currColumn.ToString(), out studentID)) { var r = DataPool.EntireStudents.Find(c => c.ID == studentID); if (r != null) { return r.Name; } } return string.Empty; } }, { "MakeUpExamTime", currColumn => { DateTime colDateTime; if (currColumn != null && DateTime.TryParse(currColumn.ToString(), out colDateTime)) { return colDateTime; } return null; } } };
- dataValidateChecks,Dictionary<string,Func<object,string>>,excel列的数据有效性验证,在Entity的每个属性的赋值之前都会先验证一下excel的数据是否有效,Key是要验证的属性的名字,Value是一个Func,输入参数就是excel的列值,返回的是string,验证通过时是string.Empty,验证不通过返回的是错误信息。写法如下:
//excel列的数据有效性验证 以下完成了对excel中编号列的值必须为整数且不为空的验证的设定 Dictionary<string,Func<object,string>> dataValidateChecks = new Dictionary<string, Func<object, string>> { { "ID", currColumn => { int idInt; if (currColumn!=null&&int.TryParse(currColumn.ToString(),out idInt)) { return string.Empty; } return "ID不能为空且必须为整数"; } } };
//执行excel导入 var res = importUtil.GetEntityList(excelPath, errors, convertFields, customConverts, dataValidateChecks);