.NET DataTable 去重过滤高效算法

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
/// <summary>
/// 过滤DataTalbe 添加处理(使用hashkey 处理) 最快
/// </summary>
/// <param name="dataTable"></param>
/// <param name="selectedNodes"></param>
/// <returns></returns>
public DataTable FilterDataTable(DataTable dataTable, List<string> selectedNodes)
{
// 使用HashSet而不是List来提高查找性能,如果不关键可以忽略这步
var selectedNodesSet = new HashSet<string>(selectedNodes.Select(n => n.Trim()), StringComparer.OrdinalIgnoreCase);
 
// 使用HashSet来存储我们已经添加过的行的hash值,只在选定列非常多时才有意义
var rowsAdded = new HashSet<int>();
 
// 创建新的DataTable的实例
DataTable resultTable = new DataTable();
 
// 添加所选的列
foreach (var column in dataTable.Columns.Cast<DataColumn>().Where(c => selectedNodesSet.Contains(c.ColumnName.Trim())))
{
resultTable.Columns.Add(column.ColumnName, column.DataType);
}
 
// 循环处理原始DataTable的每行
foreach (DataRow row in dataTable.Rows)
{
// 基于选中的列生成一个hash code作为去重的键
int hashCode = selectedNodesSet.Aggregate(17, (current, columnName) =>
current * 23 + (row[columnName]?.GetHashCode() ?? 0));
 
// 如果这个hash值尚未遇过,说明这是一个独一无二的行
if (rowsAdded.Add(hashCode))
{
// 用已选的列信息(如果它们存在的话)创建行
DataRow newRow = resultTable.NewRow();
foreach (var columnName in selectedNodesSet)
{
newRow[columnName] = row[columnName] ?? DBNull.Value;
}
resultTable.Rows.Add(newRow);
}
}
 
// 现在的resultTable已经包含了去重后的结果,因而直接返回即可
return resultTable;
}

  

posted @   LowKeyC  阅读(136)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
有志者事竟成破釜沉舟百二秦关终属楚苦心人,天不负,卧薪尝胆,三千越甲可吞吴
点击右上角即可分享
微信分享提示