星云外

2011年2月18日

Trie Tree 串集合查找

摘要: http://hxraid.javaeye.com/Trie 树,又称字典树,单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。Trie 有三种结构: 标准trie (standard trie)、压缩trie、后缀trie(suffix trie)。最后一种将在《字符串处理4:后缀树》中详细讲,这里只将前两种。1. 标准Trie (standard trie)标准Trie树的结构:所有含有公共前缀的字符串将挂在树中同一个结点下。实际上trie简明的存储了存在于串集合中的所有公共前缀。假如有这样 阅读全文

posted @ 2011-02-18 21:38 星云外 阅读(745) 评论(1) 推荐(0) 编辑
Suffix Trie 子串匹配结构

摘要: http://hxraid.javaeye.com/Suffix Trie:又称后缀Trie或后缀树。它与Trie树的最大不同在于,后缀Trie的字符串集合是由指定字符串的后缀子串构成的。比如、完整字符串"minimize"的后缀子串组成的集合S分别如下: s1=minimize s2=inimize s3=nimize s4=imize s5=mize s6=ize s7=ze s8=e 然后把这些子串的公共前缀作为内部结点构成一棵"minimize"的后缀树,如图所示,其中上图是Trie树的字符表示,下图是压缩表示(详细见《Trie树》)。可见Suffic Trie是一种很适合操作字符串子 阅读全文

posted @ 2011-02-18 21:37 星云外 阅读(453) 评论(0) 推荐(0) 编辑
PAT Tree 子串匹配结构

摘要: http://hxraid.javaeye.com/Patricia Tree 简称PAT tree。它是 trie 结构的一种特殊形式。是目前信息检索领域应用十分成功的索引方法,它是1992年由Connel根据《PATRICIA——Patrical Algorithm to Retrieve Information Coded in Alphanumeric》算法发展起来的。PAT tree 在字符串子串匹配上有这非常优异的表现,这使得它经常成为一种高效的全文检索算法,在自然语言处理领域也有广泛的应用。其算法中最突出的特点就是采用半无限长字串(semi-infinit 阅读全文

posted @ 2011-02-18 21:33 星云外 阅读(1077) 评论(0) 推荐(0) 编辑