zhizhizhiyuan

Substring with Concatenation of All Words

  leetcode中有好些题目是这一类型,即找出满足一定条件的字符串子串。有些只要返回一个结果,有些则要返回所有结果。这类题目大体有两个思路,一个是dfs,另一个则是直接遍历,记录遍历过程中的一些状态。此题采用后者,理解起来简单。

  题目并没有说L中的字符串是否可以重复,因此认为是可能重复的。所以算法开始需要对L中的字符串进行一些初步计算,简单来说就是用HashMap进行数量的统计。这是一个很常用的技巧。

  假设L的大小为N,L中字符串长度为len。任意位置都有可能符合最后的结果。因此算法的思路如下:遍历任意位置i,作为起始点。从该位置开始,考察S中N个长度为len的子字符串,用另一个HashMap来记录这N个子字符串的统计结果。如果某个子字符串不是初始统计的HashMap的key,说明不在L中,不符合条件,可以调到下一个位置。如果某个子字符串的统计结果比words中的大,说明该子字符串出现的次数太多了,必然也不符合条件,可以跳到下一个位置。

  当然,i不用遍历到最后一个位置,因为一旦从某个i开始的字符串长度比N*len短,那必然不符合条件。

  c++代码如下:

  

class Solution {
public:
    vector< int> findSubstring(string S, vector< string> &L) {
        vector< int> res;
        map< string,int> words;
        map< string,int> counts;
        int N=L.size();
        if(N==0)
            return res;
        int wordLen=L[0].length();
        int NL=wordLen*N;
        for(int i=0;i< L.size();i++)
        {
            words[L[i]]++;
        }

        for(int i=0;i+NL< =S.length();i++)
        {
            counts.clear();
            int j=0;
            for(j=0;j< N;j++)
            {
                string s=S.substr(i+j*wordLen,wordLen);
                if(words.find(s)==words.end())
                    break;
                ++counts[s];
                if(counts[s]>words[s])
                    break;
            }
            if(j==N)
            {
                res.push_back(i);
            }
        }
        return res;
    }
};

   上述c++代码中第17行"i+NL< =S.length()",不可以写成"i<=S.length()-NL"。从数学上以及语法上来说,后者没有问题。但是这就涉及一些类型转换等问题。比如S="a",L=["a","a"],则S.leng()-NL=1-2=-1;但是S.length()是size_type类型,我们可以理解为unsigned int型。包含unsigned 和 signed int的表达式,signed int被隐式转换为unsigned int,因此-1的二进制对应unsigned int实际上是一个很大的数,我们就得不到正确的结果了。由此可见,有时候一些日常没注意到的基础常常会给我们造成非常大的困扰。

posted on 2014-06-17 17:22  zhizhizhiyuan  阅读(267)  评论(0编辑  收藏  举报

导航