从“去掉字符串的空格”说起

1. 写在前面的

事情的起因是这样的,我要处理一段这样的程序,用户可以以任意的形式输入11位数字+空格的形式,然后我要把他分成434的格式。

然后想到的办法是: 去掉所有空格,然后按照规则划分成数组,然后再输出。

那么怎么样去掉空格,常规的方法这么几个:

A. String.Replace()

B. String.Split(new char[]{‘ ’},StringSplitOptions.RemoveEmptyEntries);

C. System.Text.Regex()来进行正则替换

D. 有人提出用StringBuilder,但是我们永远不要忘记StringBuilder的临界值,在小数据的情况下,使用StringBuilder反而是得不偿失的。 

2. 性能大比拼

毋容置疑,使用正则一定是最慢的办法,再次不做演示。

首先贴出测试代码:

static void Main(string[] args)
    {
        Stopwatch sw = new Stopwatch();
        string sTemp = "11  1241    111  11 ";
        string sTest = String.Empty;
        for (int i = 0; i < 1000; i++)
        {
            sTest += sTemp;
        }
        sw.Start();
        for (int i = 0; i < 1000; i++)
        {
            sTest.Replace(" ", "");
        }
        sw.Stop();
        Console.Write("使用Replace所消耗的时间:");
        Console.WriteLine(sw.ElapsedMilliseconds.ToString());
        sw.Reset();
        sw.Start();
        for (int i = 0; i < 1000; i++)
        {
            sTest.Split(new char[] { ' ' }, StringSplitOptions.RemoveEmptyEntries);
        }
        sw.Stop();
        Console.Write("使用Split所消耗的时间:");
        Console.WriteLine(sw.ElapsedMilliseconds.ToString());
    }

接下来是测试结果:

image 

正如我们意料中的一样,Replace的效率一定要比Split高的,猜测的理由其实很简单,Replace的作用就是用来替换字符,而Split是用来拆分,这里属于典型的方法乱用。

扩展阅读: 《.NET,你忘记了么?(八)—— 从dynamic到特性误用》

3. 谈谈String.Split()

我没有办法看到String.Replace()源码,那么在这里就只说说String.Split()。

大致代码可以通过Reflector看到,这里只粘贴出核心的代码:

public string[] Split(string[] separator, int count, StringSplitOptions options)
{
    bool flag = options == StringSplitOptions.RemoveEmptyEntries;
    int[] sepList = new int[this.Length];
    int[] lengthList = new int[this.Length];
    int numReplaces = this.MakeSeparatorList(separator, ref sepList, ref lengthList);
    if ((numReplaces == 0) || (count == 1))
    {
        return new string[] { this };
    }
    if (flag)
    {
        return this.InternalSplitOmitEmptyEntries(sepList, lengthList, numReplaces, count);
    }
    return this.InternalSplitKeepEmptyEntries(sepList, lengthList, numReplaces, count);
}

首先我们来关注下MakeSeparatorList方法,在这个方法里,微软通过遍历分隔符数组和字符串,两层for循环,得到了字符串中,每个分隔符所在的索引。接下来就是根据索引来直接分割字符串了,无需赘言。

4. 算法分析

从上面的代码,我们可以很轻松地看出,算法的时间复杂度是O(M*N),那么我们有没有更优的算法来实现他呢?

首先,我们要看到算法的时间复杂度瓶颈在于MakeSeparatorList方法,那就来优化这个方法,实现如下:

private static bool[] MakeSeparatorList(char[] separatorArray)
{
    bool[] charArray = new bool[255];
    for (int i = 0; i < separatorArray.Length; i++)
    {
        charArray[separatorArray[i]] = true;
    }
    return charArray;
}

 

那么之后我们就可以在遍历字符串的时候,直接通过每个字符的ASC2码来得到这个字符是否是分隔符了。

5. 算法优劣

既然这样的算法时间复杂度小,那为什么微软不采用这样的算法呢?

时间复杂度并不能决定算法的优劣,我们所谓的指数型,对数型还是ON级,都是针对当数据量大幅度增长时。但是在此问题中,分隔符只有1个,我们却需要为这一个字符去声明一个大小为255的bool型数组,这在空间复杂度上是很得不偿失的。

那么该算法适合什么?该算法适合当分隔符具有多个,字符串也很长时,那么O(N)就远远小于O(M*N)了。

6. 写在最后

好久没有写东西了,以至于写写自己已经不知道自己在写什么了。

东西写得乱七八糟,算了算了…….

只是警醒自己,也警醒各位,.NET Framework为我们提供了大量的类库方法支持,但是在用一个方法之前,我们是否该把这个方法搞清楚,这个方法是否是最优的方法,我们是该自己重新写一个方法,还是……

追本溯源,这才是程序员该做的。

 

posted @ 2009-12-07 02:19  飞林沙  阅读(3836)  评论(20编辑  收藏  举报