从“去掉字符串的空格”说起
1. 写在前面的
事情的起因是这样的,我要处理一段这样的程序,用户可以以任意的形式输入11位数字+空格的形式,然后我要把他分成434的格式。
然后想到的办法是: 去掉所有空格,然后按照规则划分成数组,然后再输出。
那么怎么样去掉空格,常规的方法这么几个:
A. String.Replace()
B. String.Split(new char[]{‘ ’},StringSplitOptions.RemoveEmptyEntries);
C. System.Text.Regex()来进行正则替换
D. 有人提出用StringBuilder,但是我们永远不要忘记StringBuilder的临界值,在小数据的情况下,使用StringBuilder反而是得不偿失的。
2. 性能大比拼
毋容置疑,使用正则一定是最慢的办法,再次不做演示。
首先贴出测试代码:
static void Main(string[] args) { Stopwatch sw = new Stopwatch(); string sTemp = "11 1241 111 11 "; string sTest = String.Empty; for (int i = 0; i < 1000; i++) { sTest += sTemp; } sw.Start(); for (int i = 0; i < 1000; i++) { sTest.Replace(" ", ""); } sw.Stop(); Console.Write("使用Replace所消耗的时间:"); Console.WriteLine(sw.ElapsedMilliseconds.ToString()); sw.Reset(); sw.Start(); for (int i = 0; i < 1000; i++) { sTest.Split(new char[] { ' ' }, StringSplitOptions.RemoveEmptyEntries); } sw.Stop(); Console.Write("使用Split所消耗的时间:"); Console.WriteLine(sw.ElapsedMilliseconds.ToString()); }
接下来是测试结果:
正如我们意料中的一样,Replace的效率一定要比Split高的,猜测的理由其实很简单,Replace的作用就是用来替换字符,而Split是用来拆分,这里属于典型的方法乱用。
扩展阅读: 《.NET,你忘记了么?(八)—— 从dynamic到特性误用》
3. 谈谈String.Split()
我没有办法看到String.Replace()源码,那么在这里就只说说String.Split()。
大致代码可以通过Reflector看到,这里只粘贴出核心的代码:
public string[] Split(string[] separator, int count, StringSplitOptions options) { bool flag = options == StringSplitOptions.RemoveEmptyEntries; int[] sepList = new int[this.Length]; int[] lengthList = new int[this.Length]; int numReplaces = this.MakeSeparatorList(separator, ref sepList, ref lengthList); if ((numReplaces == 0) || (count == 1)) { return new string[] { this }; } if (flag) { return this.InternalSplitOmitEmptyEntries(sepList, lengthList, numReplaces, count); } return this.InternalSplitKeepEmptyEntries(sepList, lengthList, numReplaces, count); }
首先我们来关注下MakeSeparatorList方法,在这个方法里,微软通过遍历分隔符数组和字符串,两层for循环,得到了字符串中,每个分隔符所在的索引。接下来就是根据索引来直接分割字符串了,无需赘言。
4. 算法分析
从上面的代码,我们可以很轻松地看出,算法的时间复杂度是O(M*N),那么我们有没有更优的算法来实现他呢?
首先,我们要看到算法的时间复杂度瓶颈在于MakeSeparatorList方法,那就来优化这个方法,实现如下:
private static bool[] MakeSeparatorList(char[] separatorArray) { bool[] charArray = new bool[255]; for (int i = 0; i < separatorArray.Length; i++) { charArray[separatorArray[i]] = true; } return charArray; }
那么之后我们就可以在遍历字符串的时候,直接通过每个字符的ASC2码来得到这个字符是否是分隔符了。
5. 算法优劣
既然这样的算法时间复杂度小,那为什么微软不采用这样的算法呢?
时间复杂度并不能决定算法的优劣,我们所谓的指数型,对数型还是ON级,都是针对当数据量大幅度增长时。但是在此问题中,分隔符只有1个,我们却需要为这一个字符去声明一个大小为255的bool型数组,这在空间复杂度上是很得不偿失的。
那么该算法适合什么?该算法适合当分隔符具有多个,字符串也很长时,那么O(N)就远远小于O(M*N)了。
6. 写在最后
好久没有写东西了,以至于写写自己已经不知道自己在写什么了。
东西写得乱七八糟,算了算了…….
只是警醒自己,也警醒各位,.NET Framework为我们提供了大量的类库方法支持,但是在用一个方法之前,我们是否该把这个方法搞清楚,这个方法是否是最优的方法,我们是该自己重新写一个方法,还是……
追本溯源,这才是程序员该做的。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?