C#|.net core 基础 - 如何判断连续子序列
前两天同事遇到了一个小需求,想判断一个集合是不是在另一个集合中存在,并且要求顺序一致,然后一起讨论了下应该怎么做,有没有什么比较好的方式?下面分享一下我们想到的方法,如果你也有不同的想法也可以分享给我。
01解法一:序列化字符串(不推荐)
这个方案的核心思想就是如果一个集合是另一个集合的连续子序列,那么这两个集合序列化成字符串应该也还会有这样的特性,即一个字符串包含了另一个字符串。我立马想到了用string.Join把数组拼接成字符串,具体代码实现如下:
public static bool IsSubsequenceJoin(IEnumerable<string> main, IEnumerable<string> sub)
{
var mainString = string.Join(",", main);
var subString = string.Join(",", sub);
return mainString.Contains(subString);
}
其实听到序列化我第一反应是感觉有坑的,因为序列化会涉及到一些特殊字符的问题,还记得我之前的文章《“hello”.IndexOf(“\0”,2)中的坑》吗,就是因为特殊字符串引起。
当然上面的方法应对大多数需求应该没问题,但是还是有些特例需要注意,比如下面这个例子:
string[] main = ["a", "b", "c", "d,e"];
string[] sub = ["d", "e"];
var isSubsequenceJoin = ContinuousSubsequence.IsSubsequenceJoin(main, sub);
Console.WriteLine("数组 [\"a\", \"b\", \"c\", \"d,e\"] 序列化后: " + string.Join(",", main));
Console.WriteLine("数组 [\"d\", \"e\"] 序列化后: " + string.Join(",", sub));
Console.WriteLine("mainString.Contains(subString) 结果: " + isSubsequenceJoin);
运行结果如下:
因为string.Join使用了“,“作为拼接,所以sub数组序列化后就是"d,e",而数组main中恰好有个元素"d,e",这就导致预期之外的错误结果。
既然string.Join方法有缺陷还有其他序列化方法吗?我们试试专门做序列化的方法JsonConvert.SerializeObject,代码如下:
public static bool IsSubsequenceSerialize(IEnumerable<string> main, IEnumerable<string> sub)
{
var mainString = JsonConvert.SerializeObject(main).TrimStart('[').TrimEnd(']');
var subString = JsonConvert.SerializeObject(sub).TrimStart('[').TrimEnd(']');
return mainString.Contains(subString);
}
这个方法需要我们处理一些序列化产生的额外结构数据,比如上面的TrimStart('[').TrimEnd(']'),就是为了去掉数组产生的额外字符,如果要是其他更复杂类型可以要考虑的情况更多。
当然这个方法就可以解决上面的特例问题,但是依然有些特殊情况会导致错误,比如下面的示例:
string[] main = ["a", "b", "c", "d,\"e"];
string[] sub = ["e"];
var isSubsequenceSerialize = ContinuousSubsequence.IsSubsequenceSerialize(main, sub);
Console.WriteLine("IsSubsequenceSerialize 方法: ");
Console.WriteLine("数组 main [\"a\", \"b\", \"c\", \"d,\\\"e\"] 序列化后: " + JsonConvert.SerializeObject(main).TrimStart('[').TrimEnd(']'));
Console.WriteLine("数组 sub [\"e\"] 序列化后: " + JsonConvert.SerializeObject(sub).TrimStart('[').TrimEnd(']'));
Console.WriteLine("mainString.Contains(subString) 结果: " + isSubsequenceSerialize);
结果如下:
这个例子因为我们在构建数组main时,在一个元素中多加了一个符合[ “ ],使得结果出现预期之外的错误结果。
因此对于序列化字符串方式在大多数情况下都是不推荐使用的,除非你能保证你的数据不会出现一些特殊情况,如果数量大可能还会有性能问题。
02解法二:滑动窗口(推荐)
我们简单解释一下滑动窗口算法是啥意思,先看一下下面这张图感受一下。
滑动窗口可以理解成在一个长轴上,滑动一个窗口,因为窗口大小是固定的,所以随着时间推移,从窗口中看到的东西是不一样的。
把我们的问题和上图结合起来看,如果主数组main代表长轴,子数组sub代表窗口,现在我们把子数组窗口对齐主数组起始位置,然后时间轴每前进一个刻度代表子数组沿着主数组向前移动一位数。
当时间刻度来到T2时,从子数组窗口中可以看到数组[1,3,5],当时间刻度来到T8时,从子数组窗口中可以看到数组[8,7,6]。
也就是说随着时间的推进,当子数组窗口中看到的数组和自身数组值一样时,则代表子数组是主数组的连续子序列。具体实现代码如下:
public static bool IsSubsequenceSlidingWindow<T>(IEnumerable<T> main, IEnumerable<T> sub)
{
var mainLength = main.Count();
var subLength = sub.Count();
for (int i = 0; i < mainLength - subLength + 1; i++)
{
var expect = main.Skip(i).Take(subLength);
if (expect.SequenceEqual(sub))
{
return true;
}
}
return false;
}
注: 相关源码都已经上传至代码库,有兴趣的可以看看。