Leetcode | Implement strStr()

Implement strStr().

Returns a pointer to the first occurrence of needle in haystack, or null if needle is not part of haystack.

此题我觉得并不是真要你写出kmp算法。 指针暴力法我觉得可能是考察点。而且要accept的话,必须要忽略后面一段不可能匹配的串。指针的操作要非常小心。

Of course, you can demonstrate to your interviewer that this problem can be solved using known efficient algorithms such as Rabin-Karp algorithmKMP algorithm, and the Boyer-Moore algorithm. Since these algorithms are usually studied in advanced algorithms class, for an interview it is sufficient to solve it using the most direct method — The brute force method.

非指针代码很好小,很难有错。最长扫描n1-n2+1个就够了。

 1 class Solution {
 2 public:
 3     char *strStr(char *haystack, char *needle) {
 4         if (haystack == NULL || needle == NULL) return NULL;
 5         int n1 = strlen(haystack);
 6         int n2 = strlen(needle);
 7         int j; 
 8         
 9         for (int i = 0; i < n1 - n2 + 1; ++i) {
10             j = 0;
11             while (j < n2 && needle[j] == haystack[i + j]) j++;
12             if (j == n2) return haystack + i;
13         }
14         return NULL;
15     }
16 };

c指针代码:

 1 class Solution {
 2 public:
 3     char *strStr(char *haystack, char *needle) {
 4         if (haystack == NULL || needle == NULL) return NULL;
 5         if (*needle == '\0') return haystack;
 6         char *ph = haystack, *pn = needle, *count = ph, *tmp;
 7         while (*pn) {
 8             if (!*count) return NULL;
 9             pn++; 
10             count++;
11         }
12         if (*needle) count--;
13         while (*count) {
14             pn = needle;
15             tmp = ph;
16             while (*pn && *tmp && *pn == *tmp) {
17                 pn++; tmp++;
18             }
19             if (!*pn) return ph;
20             ph++;
21             count++;
22         }    
23         
24         return NULL;
25     }
26 };

如果是needle是空串,返回应该是haystack整个串。

最长扫描n1-n2+1个就够了。所以要让count循环m-1次。优化后的代码如下:

 1 class Solution {
 2 public:
 3     char *strStr(char *haystack, char *needle) {
 4         if (*needle == '\0') return haystack;
 5         char *ph = haystack, *pn = needle, *count = ph, *tmp;
 6         while (*++pn) {
 7             if (!*count) return NULL;
 8             count++;
 9         }
10         while (*count) {
11             pn = needle;
12             tmp = ph;
13             while (*pn && *tmp && *pn == *tmp) {
14                 pn++; tmp++;
15             }
16             if (!*pn) return ph;
17             ph++;
18             count++;
19         }    
20         
21         return NULL;
22     }
23 };

 kmp算法的话,直接看wiki就好。看完也实现一遍。

Partial match 数组里面存的是当前位置的前缀等于整个匹配串的某个前缀。

比如"ABCDABC",第二个B(红色)对应的值就是1(绿色). 

匹配失败后,假设haystack的当前位置是i,匹配到i+j失败了,假设就匹配到第二个B失败。那么就要j就要指向第一个B那里,然后i就要跳到第二个A,也就是i = i + j - P[j].

 1 class Solution {
 2 public:
 3     char *strStr(char *haystack, char *needle) {
 4         if (haystack == NULL || needle == NULL) return NULL;
 5         if (*needle == '\0') return haystack;
 6         
 7         int n1 = strlen(haystack), n2 = strlen(needle), count = 0;
 8         vector<int> kmp(n2, 0);
 9         kmp[0] = -1;
10         
11         for (int i = 2; i < n2; ) {
12             if (needle[i - 1] == needle[count]) {
13                 count++;
14                 kmp[i++] = count;
15             } else if (count > 0) {
16                 count = kmp[count];
17             } else {
18                 kmp[i++] = 0;
19             }
20         }
21         
22         for (int i = 0, j = 0; i + j < n1; ) {
23             if (haystack[i + j] == needle[j]) {
24                 j++;
25                 if (j == n2) return haystack + i;
26             } else if (kmp[j] > 0) {
27                 i = i + j - kmp[j];
28                 j = kmp[j];
29             } else {
30                 j = 0;
31                 i++;
32             }
33         }
34         
35         return NULL;
36     }
37 };

前面也有摘过KMP算法

建立表的算法的复杂度是 O(n),其中 n 是 W 的长度。除去一些初始化的工作,所有工作都是在 while 循环中完成的,足够说明这个循环执行用了 O(n) 的时间,同时还会检查 pos 和 pos - cnd 的大小。在第一个分支里,pos - cnd 被保留,而 pos 与 cnd 同时递增,自然,pos 增加了。在第二个分支里,cnd 被 T[cnd] 所替代,即以上总是严格低于 cnd,从而增加了 pos - cnd。在第三个分支里,pos 增加了,而 cnd 没有,所以 pos 和 pos - cnd 都增加了。因为 pos ≥ pos - cnd,即在每一个阶段要么 pos 增加,要么 pos 的一个下界增加;所以既然此算法只要有 pos = n 就终止了,这个循环必然最多在 2n 次迭代后终止, 因为 pos - cnd 从 1 开始。因此建立表的算法的复杂度是 O(n)。

posted @ 2014-05-14 21:31  linyx  阅读(227)  评论(0编辑  收藏  举报