DataTable.Select方法的性能问题
我们首先看一个例子:
bool a,b,c,d; a=true;b=false;c=false;d=false;
如果我们执行if(a or b or c or d){},我们发现当程序执行到a,发现为true就执行下面的语句了,就没必要去判断b,c,d的值了。
最近在做一些大数据量的多次比较问题,由于多次比较一些记录块,所以将这些记录放到了DataTable中提高查找的性能,使用DataTable.Select(string filterExpression)来查找相关的记录。但是我发现执行的比较慢。然后我把Select方法接受的xpath拆分为几个条件执行,将其中最可能缩小范围的条件传递给filterExpression,然后在找到的集合中过滤其他的条件。发现这样比原来的执行时间少了很多。由此我估计Select算法是运算所有的条件,然后才返回这个记录的。
事不宜迟,我用Reflector.exe查看算法源代码,发现该方法是把这个filterExpression表达式分割成多个表达式,然后遍历记录,计算这些子条件,取到满足条件的记录(算法内部比较复杂,细节上没看完,如果有好的见解欢迎提出),这样就导致了效率的低下。
然后我又做了一个简单的例子验证了一下:
所以在使用该方法时要注意优化自己的查询条件,尤其某个条件能有效的缩小查询范围时应该考虑先用该条件查询,然后对结果再执行条件。
bool a,b,c,d; a=true;b=false;c=false;d=false;
如果我们执行if(a or b or c or d){},我们发现当程序执行到a,发现为true就执行下面的语句了,就没必要去判断b,c,d的值了。
最近在做一些大数据量的多次比较问题,由于多次比较一些记录块,所以将这些记录放到了DataTable中提高查找的性能,使用DataTable.Select(string filterExpression)来查找相关的记录。但是我发现执行的比较慢。然后我把Select方法接受的xpath拆分为几个条件执行,将其中最可能缩小范围的条件传递给filterExpression,然后在找到的集合中过滤其他的条件。发现这样比原来的执行时间少了很多。由此我估计Select算法是运算所有的条件,然后才返回这个记录的。
事不宜迟,我用Reflector.exe查看算法源代码,发现该方法是把这个filterExpression表达式分割成多个表达式,然后遍历记录,计算这些子条件,取到满足条件的记录(算法内部比较复杂,细节上没看完,如果有好的见解欢迎提出),这样就导致了效率的低下。
然后我又做了一个简单的例子验证了一下:
1
DataTable dt = new DataTable();
2
dt.Columns.Add("a",typeof(int));
3
dt.Columns.Add("b",typeof(string));
4
5
for(int i=0;i<1000000;i++)
6
{
7
DataRow row = dt.NewRow();
8
row["a"] = 0;
9
row["b"] = "2";
10
dt.Rows.Add(row);
11
}
12
long tick = System.DateTime.Now.Ticks;
13
DataRow[] rows = dt.Select("a=0 or (b='1' or b='3' or b='5' or b='6')");
14
System.Console.WriteLine((System.DateTime.Now.Ticks-tick));
15
tick = System.DateTime.Now.Ticks;
16
rows = dt.Select("a=0");
17
System.Console.WriteLine((System.DateTime.Now.Ticks-tick));
在本机测试,发现第一个执行时间是第二个的12倍!
2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

所以在使用该方法时要注意优化自己的查询条件,尤其某个条件能有效的缩小查询范围时应该考虑先用该条件查询,然后对结果再执行条件。