.NET DataTable 去重过滤高效算法
/// <summary> /// 过滤DataTalbe 添加处理(使用hashkey 处理) 最快 /// </summary> /// <param name="dataTable"></param> /// <param name="selectedNodes"></param> /// <returns></returns> public DataTable FilterDataTable(DataTable dataTable, List<string> selectedNodes) { // 使用HashSet而不是List来提高查找性能,如果不关键可以忽略这步 var selectedNodesSet = new HashSet<string>(selectedNodes.Select(n => n.Trim()), StringComparer.OrdinalIgnoreCase); // 使用HashSet来存储我们已经添加过的行的hash值,只在选定列非常多时才有意义 var rowsAdded = new HashSet<int>(); // 创建新的DataTable的实例 DataTable resultTable = new DataTable(); // 添加所选的列 foreach (var column in dataTable.Columns.Cast<DataColumn>().Where(c => selectedNodesSet.Contains(c.ColumnName.Trim()))) { resultTable.Columns.Add(column.ColumnName, column.DataType); } // 循环处理原始DataTable的每行 foreach (DataRow row in dataTable.Rows) { // 基于选中的列生成一个hash code作为去重的键 int hashCode = selectedNodesSet.Aggregate(17, (current, columnName) => current * 23 + (row[columnName]?.GetHashCode() ?? 0)); // 如果这个hash值尚未遇过,说明这是一个独一无二的行 if (rowsAdded.Add(hashCode)) { // 用已选的列信息(如果它们存在的话)创建行 DataRow newRow = resultTable.NewRow(); foreach (var columnName in selectedNodesSet) { newRow[columnName] = row[columnName] ?? DBNull.Value; } resultTable.Rows.Add(newRow); } } // 现在的resultTable已经包含了去重后的结果,因而直接返回即可 return resultTable; }
再牛逼的梦想,也抵不住我傻逼似的坚持!别在该奋斗的年纪,贪图安逸。 今天多学一些知识,明天开发的速度就更快一下。后天你就会变得更好。