ljsspace

2011年7月20日

摘要：所谓LCP(Longest Common Prefix)是指后缀数组中相邻两个后缀的最长公共前缀的长度。在后缀数组的应用中，LCP是很重要的信息。设后缀数组为SA, 用LCP(i)定义为第SA[i]个后缀和第SA[i-1]个后缀之间的最长公共前缀长度。由于输入文本T的第p个后缀和第p-1个后缀之间存在如下关系：LCP(p) >= LCP(p-1) - 1，因此如果已知第p-1个后缀的LCP(p-1)，那么在计算第p个后缀的LCP(p)时，可以直接跳过第p个后缀的前LCP(p-1)-1个字符，然后在下一个字符位置开始与后缀数组中与p相邻的前一个后缀（设它为文本T的第q个后缀，即q=SA[R 阅读全文

posted @ 2011-07-20 00:24 ljsspace 阅读(1050) 评论(0) 推荐(0)

2011年7月19日

构造后缀数组的DC3算法实现

摘要： DC3算法(Difference Cover mod 3)是J. Kärkkäinen和P. Sanders在2003年发表的论文 "Simple Linear Work Suffix Array Construction"中描述的线性时间内构造后缀数组的算法。相对Prefix Doubling（前缀倍增）算法而言，虽然它的渐进时间复杂度比较小，但是常数项比较大。DC3算法的思想类似于找中位数的median of medians算法（http://en.wikipedia.org/wiki/Selection_algorithm），它采用分治思想: 先用阅读全文

posted @ 2011-07-19 15:16 ljsspace 阅读(1412) 评论(0) 推荐(0)

2011年7月18日

使用倍增算法(Prefix Doubling)构造后缀数组

摘要：如果采用对每个后缀排序的方法来生成后缀数组，即使采用快速排序，由于每次比较的对象是字符串（设输入字符串的长度为n），因此每一个比较操作的复杂度不再是常数，而是O(n)，快速排序本身的平均情况下时间复杂度为O(nlgn)，因此总的时间复杂度是O(n^2*lgn)，如果考虑到采用快速排序最坏情况下复杂度为O(n^2)，那么最坏时总的复杂度为O(n^3)，显然在输入串长度很大时这种做法不可取。Prefix Doubling算法（倍增法）是构造后缀数组一个比较实用的算法。其基本思想是先计算出每个后缀的k-前缀的rank值，然后在此基础上计算每个后缀的 2k-前缀rank值，k从1开始。直到每个后缀都阅读全文

posted @ 2011-07-18 10:22 ljsspace 阅读(1375) 评论(0) 推荐(0)

2011年7月10日

构建后缀树的Ukkonen算法及其实现

摘要： Ukkonen算法（简称ukk算法）是一个online算法，它与mcc算法的一个显著区别是每次只对S的一个前缀生成隐式后缀树(implicit suffix tree)，然后考虑S的下一个字符S[i+1]并将S[0...i+1]的所有后缀加入到上一个阶段中生成的隐式后缀树中，形成一个新的隐式后缀树。最后用一个特殊字符将隐式后缀树自动转换成真实的后缀树。这样ukk的一个最大优点就是不需要事先知道输入字串的全部内容，只需使用增量方式生成后缀树。和mcc算法类似，也是采用压缩存储Trie，以达到节省空间的目的。通过使用implicit extensions和suffix link两大技巧，时间复杂度阅读全文

posted @ 2011-07-10 22:17 ljsspace 阅读(2873) 评论(2) 推荐(2)

2011年7月9日

求字符串中不含重复字符的最长子串的长度

摘要：原帖：http://topic.csdn.net/u/20100930/02/5064ef5a-b2f4-44b9-8a16-ce2bf83323c0.html?84726题目：求字符串最长不含重复字符的子串长度，如abcbec，就返回3.分析：利用动态规划(DP)原理，设字符串S的长度为n，考虑i...n-1这个后缀中符合条件的子串：首先需要记录两组数据，第一组数据是从i向右找到的最长不含重复字符的子串长度prefixlen[i]，第二组数据是在i...n-1后缀中符合条件的子串之起始和结束位置，分别用maxlenstart[i]和maxlenend[i]表示，注意二组数据满足：maxlen 阅读全文

posted @ 2011-07-09 00:21 ljsspace 阅读(1153) 评论(0) 推荐(0)

2011年7月5日

AC解 - Life Forms(POJ#3294)

摘要：原题: http://poj.org/problem?id=3294或者：http://acm.nankai.edu.cn/p1312.htmlDescriptionYou may have wondered why most extraterrestrial life forms resemble humans, differing by superficial traits such as height, colour, wrinkles, ears, eyebrows and the like. A few bear no human resemblance; these typical 阅读全文

posted @ 2011-07-05 14:08 ljsspace 阅读(290) 评论(0) 推荐(0)

2011年7月3日

快速生成后缀树的McCreight算法及其实现

摘要： McCreight 算法(简称mcc算法)是基于蛮力法，即已知输入文本串T的内容（注：Ukkonen算法是online的，所以不要求事先知道T的全部内容），逐步缩短插入到树中的后缀长度，直到将最后一个后缀（等于末尾那个字符）插入到前面已经生成的树中为止。它与蛮力法的区别是，T的最后一个字符必须与前面的n-1 个字符中的任何一个字符不同（n是T的长度），换句话说，T的最后一个字符不属于字母表（希腊字母大写SIGMA）中任何字符，这样生成的Suffix Tree的特点是，所有的后缀都终止于叶子结点，而且每个叶子结点必定对应一个后缀。也就是说，任何内部结点都不会是后缀的终止结点。这个要求是 McCreight算法和Ukkonen算法的假设前提。阅读全文

posted @ 2011-07-03 15:11 ljsspace 阅读(1043) 评论(0) 推荐(0)

2011年6月30日

后缀树(Suffix Tree)的文本匹配算法

摘要：后缀树(Suffix Tree)是一种特殊的Trie，它的用途非常广泛，其中一个主要的应用是作文本匹配，也像KMP等算法一样，它也是空间换时间的一个典范。利用 Suffix Tree做文本匹配与其他的模式匹配算法比如KMP和Boyer-Moore算法的主要区别是，后缀树文本匹配算法是对文本T做预处理，而KMP算法是对模式串P做预处理。因此后缀树常用于文本静态，而模式串动态的场合；而KMP等算法常用于文本动态，模式串静态的场合。设T的长度为n，P的长度为m，一般情况下m<n。在预处理中，用Suffix Tree匹配的复杂度为O(n)，而KMP和Boyer-Moore的复杂度为O(m)。可是阅读全文

posted @ 2011-06-30 16:23 ljsspace 阅读(2326) 评论(0) 推荐(0)

2011年6月29日

利用后缀树求多个字符串的最长公共连续子串(Longest Common Substring)

摘要：问题：有N个字符串，计算它们公共的最长连续子串。例如，字符串集合{abcd,bcca,aabc}，它们公共的最长连续子串是bc。又如{abcfd，bcabca，aabcf}的公共的最长连续子串是abc。针对本问题，可以用特殊的字符（该字符必须是N个串中没有出现的字符）将N个字符串连起来形成一个新串，然后构建这个新串的后缀树。比如对字符串集合 {abcd,bcca,aabc}，可以连成新串abcd$bcca@aabc%，其中子串之间的分隔符为 '$','@','%'。满足条件的最长子串就是最深的分叉结点，而且该分叉结点下面的后缀的suffix（注意阅读全文

posted @ 2011-06-29 17:10 ljsspace 阅读(1984) 评论(0) 推荐(0)

2011年6月28日

AC解 - Phone List(HDOJ#1671) 前缀树的一个应用

摘要：原题：http://acm.hdu.edu.cn/showproblem.php?pid=1671Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Problem DescriptionGiven a list of phone numbers, determine if it is consistent in the sense that no number is the prefix of another. Let’s say the phone catalogue listed 阅读全文

posted @ 2011-06-28 23:04 ljsspace 阅读(323) 评论(0) 推荐(0)

公告