[Leetcode] Regular expression matching 正则表达式匹配

Implement regular expression matching with support for'.'and'*'.

'.' Matches any single character.
'*' Matches zero or more of the preceding element.

The matching should cover the entire input string (not partial).

The function prototype should be:
bool isMatch(const char *s, const char *p)

Some examples:
isMatch("aa","a") → false
isMatch("aa","aa") → true
isMatch("aaa","aa") → false
isMatch("aa", "a*") → true
isMatch("aa", ".*") → true
isMatch("ab", ".*") → true
isMatch("aab", "c*a*b") → true

题意：' . '能匹配任意字符，‘ * ‘表示之前的那个字符可以是0个、1个或者多个，（注意：s= ba和 p= a*bc也是匹配的，*表示p中 * 之前的字符为0个,但s=‘bc’和 p=‘aa*bc’是不匹配的）。

思路：根据字符' * '的特殊性，整体的解决方法主要是分两种情况：

一、p的第二个字符*(p+1)不是 ' * '，这种情况，只要存在 *s==*p 或者*p=' . '中的一种情况，就说明当前p 和 s 对应的字符匹配，就可以比较两个的下一个字符（这有一个前提，就是 s 要不为空，要是 s 为空了，就不匹配了，不用继续比较了）；

二、p的第二个字符*(p+1)是 ' * '，这种情况就比较麻烦了，也分两种情况：

1）在*s==*p 或者*p==' . '其中的一种情况下，判断 ' * '是代表0个、1个或者多个前一个字符，如何去实现了？先将 *s 和*(p+2)去匹配，看是否能匹配，若能代表*表示0个之前字符，若是不能，则将s++，然后和P接着匹配，看是否匹配，若是，则将 *s 和*(p+2)去匹配继续上部分的循环；若不是，则直接将 *s 和*(p+2)去匹配，不用继续判断*s和*p是否匹配。是有点绕口，结合代码看，可能稍微好些。如：s= aba和 p= a*ba或者s= aab和 p= a*bc

2）*s !=*p 和*p !=' . '，说明，p中的第一个字符，在s中不存在，直接说明 ' * '代表0个之前的字符，那么就继续判断 *s 和*(p+2)是否匹配。如s= ba和 p= a*bc是匹配，s= ba和 p= a*cbc则是不匹配，但是说明依旧说明在开始判断时，' * '代表0个 a。

结合：当p为空，若s也为空，返回true，反之返回false；当p的长度为1，若s长度也为1，且相同或是p为'.'则返回true，反之返回false；代码如下：

 1 class Solution {
 2 public:
 3     bool isMatch(const char *s, const char *p) 
 4     {
 5         if(*p=='\0')    return *s=='\0';
 6         if(*(p+1) =='*')
 7         {
 8             while(*p==*s||(*p=='.'&&*s !='\0'))
 9             {
10                 if(isMatch(s++,p+2))    //判断*之前元素的个数
11                     return true;
12             }
13             return isMatch(s,p+2);      //直接匹配字符*的下一个
14         }
15         else
16         {
17             if(*p==*s||(*p=='.'&&*s !='\0'))
18                 return isMatch(s+1,p+1);
19             return false;
20         }
21     }
22 };

还有一种利用动态规划的方法，暂时没有看太懂，这里给出链接1 ，链接2，方便以后揣摩。

再次看题时，看到这里有动态规划的解法，就结合LeetCode给出了自己的理解，具体分析过程参见上面的递归，这里仅给出状态转移方程的解释，其中dp[i[[j]是表示s[0，i)和p[0,j)相匹配（注意区间前闭后开）

j注意二维数组下标和字符串下表的对应关系

（1）当字符串p中当前字符不是‘*’时，对dp[i][j]只要此时字符串s、p对应匹配，则dp[i][j]的状态应和dp[i-1][j-1]一样，即：

dp[i][j]=i>0&&dp[i-1][j-1]&&(s[i-1]==p[j-1]||p[j-1]=='.');

（2）当字符串p中当前字符是‘*’时，有两种情况：

(a)该字符'*'只代表0个前一个字符，所以当前的dp值要看同行中前两列的值，则：

　　dp[i][j]=dp[i][j-2]　

(b)　该字符'*'只代表一个或多个前一个字符时，p中*对应的s中的字符要和p中*之前的字符向匹配，即s中有多个*之前的字符，只有这样才可能代表多个，这时也要考虑p中*和之前的是否和s中，对应之前的相匹配。

感觉说不清了，好绕，举个例子:s="aaab"，p="a*b"，p[1]=* 了，此时*代表多个p[0] (设代表n个)，所以要考虑，s中是否有多个a啊，所以把p[0]和s[1]对比，发现匹配，那这时是不是说明两者相匹配了？不一定，如：s="baab"，b="a*b"，p[0]和s[1]匹配，而两字符串不匹配，即我们还要考虑s[0]和p[0]与p[1]组合的字符串是否匹配，即*代表n-1个是否匹配。

dp[i][j] = i>0&&(s[i-1]==p[j-2]||p[j-2]=='.')&&dp[i-1][j]

s="aaab"，p="a*b"时，列为p，行为s二维矩阵为：

	“”	a	*	b
""	T	F	T	F
a	F	T	T	F
a	F	F	T	F
a	F	F	T	F
b	F	F	F	T

代码如下：

 1 class Solution {
 2 public:
 3     bool isMatch(const char *s, const char *p) 
 4     {
 5         int slen=strlen(s),plen=strlen(p);
 6         vector<vector<bool>> dp(slen+1,vector<bool>(plen+1,false));
 7 
 8         dp[0][0]=true;
 9 
10         for(int i=0;i<slen+1;i++)
11         {
12             for(int j=1;j<plen+1;++j)
13             {
14                 if(p[j-1]=='*')
15                     dp[i][j]=dp[i][j-2]||(i>0&&(s[i-1]==p[j-2]||p[j-2]=='.')&&dp[i-1][j]);
16                 else
17                     dp[i][j]=i>0&&dp[i-1][j-1]&&(s[i-1]==p[j-1]||p[j-1]=='.');
18 
19             }
20         }    
21         return dp[slen][plen];    
22     }
23 };

个人建议：画出矩阵看

posted @ 2017-06-25 11:56 王大咩的图书馆阅读(326) 评论(0) 编辑收藏举报

刷新页面返回顶部

王大咩的图书馆

加油，王同学!!!啦啦啦啦

[Leetcode] Regular expression matching 正则表达式匹配

公告