Trie树

一、什么是trie树

1.Trie树 (特例结构树)  
Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。

Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
     
Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点。


2.三个基本特性:  

1)根节点不包含字符,除根节点外每一个节点都只包含一个字符。  

2)从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。

3)每个节点的所有子节点包含的字符都不相同。

3.应用例子


#1014 : Trie树

时间限制:10000ms

单点时限:1000ms

内存限制:256MB

描述:

小Hi和小Ho是一对好朋友,出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助,在编程的学习道路上一同前进。

这一天,他们遇到了一本词典,于是小Hi就向小Ho提出了那个经典的问题:“小Ho,你能不能对于每一个我给出的字符串,都在这个词典里面找到以这个字符串开头的所有单词呢?”

身经百战的小Ho答道:“怎么会不能呢!你每给我一个字符串,我就依次遍历词典里的所有单词,检查你给我的字符串是不是这个单词的前缀不就是了?”

小Hi笑道:“你啊,还是太年轻了!~假设这本词典里有10万个单词,我询问你一万次,你得要算到哪年哪月去?”

小Ho低头算了一算,看着那一堆堆的0,顿时感觉自己这辈子都要花在上面了...

小Hi看着小Ho的囧样,也是继续笑道:“让我来提高一下你的知识水平吧~你知道树这样一种数据结构么?”

小Ho想了想,说道:“知道~它是一种基础的数据结构,就像这里说的一样!”

小Hi满意的点了点头,说道:“那你知道我怎么样用一棵树来表示整个词典么?”

小Ho摇摇头表示自己不清楚。

提示一:Trie树的建立

“你看,我们现在得到了这样一棵树,那么你看,如果我给你一个字符串ap,你要怎么找到所有以ap开头的单词呢?”小Hi又开始考校小Ho。

“唔...一个个遍历所有的单词?”小Ho还是不忘自己最开始提出来的算法。

“笨!这棵树难道就白构建了!”小Hi教训完小Ho,继续道:“看好了!”

提示二:如何使用Trie树

提示三:在建立Trie树时同时进行统计!

“那么现在!赶紧去用代码实现吧!”小Hi如是说道

输入

输入的第一行为一个正整数n,表示词典的大小,其后n行,每一行一个单词(不保证是英文单词,也有可能是火星文单词哦),单词由不超过10个的小写英文字母组成,可能存在相同的单词,此时应将其视作不同的单词。接下来的一行为一个正整数m,表示小Hi询问的次数,其后m行,每一行一个字符串,该字符串由不超过10个的小写英文字母组成,表示小Hi的一个询问。

在20%的数据中n, m<=10,词典的字母表大小<=2.

在60%的数据中n, m<=1000,词典的字母表大小<=5.

在100%的数据中n, m<=100000,词典的字母表大小<=26.

本题按通过的数据量排名哦~

输出

对于小Hi的每一个询问,输出一个整数Ans,表示词典中以小Hi给出的字符串为前缀的单词的个数。

样例输入

5
babaab
babbbaaaa
abba
aaaaabaa
babaababb
5
babb
baabaaa
bab
bb
bbabbaab

样例输出

1
0
3
0
0

  1 /*
  2 ****************************Trie树(字典树,经典题)*************************************
  3 ******************************by JA/C++ 2015-1-13****************************************
  4 */
  5 
  6 #include <iostream>
  7 #include <string>
  8 
  9 using namespace std;
 10 
 11 struct TrieNode{
 12     bool isword;
 13     unsigned int count;
 14     TrieNode *next[26];
 15     TrieNode() :isword(false), count(0){
 16         for (int i = 0; i < 26; i++)
 17             next[i] = NULL;
 18     }
 19 
 20 };
 21 
 22 class TrieTree{
 23 public:
 24     TrieTree()
 25     {
 26         root = new TrieNode();
 27     }
 28     ~TrieTree()
 29     {
 30         destory(root);
 31     }
 32     void insert(const char *s);
 33     unsigned int find(const char *s);
 34     void destory(TrieNode *r);
 35 private:
 36     TrieNode *root;
 37 };
 38 
 39 void TrieTree::insert(const char *s)
 40 {
 41     TrieNode *r = root;
 42     while (*s)
 43     {
 44         if (!r->next[*s - 'a'])
 45         {
 46             TrieNode *t = new TrieNode();
 47             r->next[*s - 'a'] = t;
 48         }
 49         r->count++;
 50         r = r->next[*s - 'a'];
 51         s++;
 52     }
 53     r->isword = true;
 54     r->count++;
 55 
 56 }
 57 
 58 unsigned int TrieTree::find(const char *s)
 59 {
 60     TrieNode *r = root;
 61     while (*s)
 62     {
 63         if (!r->next[*s - 'a'])
 64             return 0;
 65         r = r->next[*s - 'a'];
 66         s++;
 67     }
 68     return r->count;
 69 }
 70 
 71 void TrieTree::destory(TrieNode *r)
 72 {
 73     for (int i = 0; i < 26; i++)
 74     {
 75         if (r->next[i] != NULL)
 76             destory(r->next[i]);
 77 
 78     }
 79     delete r;
 80 }
 81 
 82 int main()
 83 {
 84     string s;
 85     unsigned int n;
 86     unsigned int m;
 87     TrieTree T;
 88     cin >> n;
 89     for (unsigned int i= 0; i < n; i++)
 90     {
 91         cin >> s;
 92         T.insert(s.c_str());
 93     }
 94     cin >> m;
 95     for (unsigned int i = 0; i < m; i++)
 96     {
 97         cin >> s;
 98         cout << T.find(s.c_str()) << endl;
 99 
100     }
101     return 0;
102 }
View Code

二、trie树的实现

1.插入过程
对于一个单词,从根开始,沿着单词的各个字母所对应的树中的节点分支向下走,直到单词遍历完,将最后的节点标记为红色,表示该单词已插入trie树。


2.查找过程
其方法为:

(1) 从根结点开始一次搜索;

(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;

(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。

(4) 迭代过程……

(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。其他操作类似处理.    


3.查找分析
在trie树中查找一个关键字的时间和树中包含的结点数无关,而取决于组成关键字的字符数。而二叉查找树的查找时间和树中的结点数有关O(log2n)。

如果要查找的关键字可以分解成字符序列且不是很长,利用trie树查找速度优于二叉查找树。如:

若关键字长度最大是5,则利用trie树,利用5次比较可以从26^5=11881376个可能的关键字中检索出指定的关键字。而利用二叉查找树至少要进行次比较。 

三、trie树的应用

1.字符串检索、词频统计、搜索引擎的热门查询

2.字符串最长公共前缀

3.排序

4.辅助其他数据结构和算法

参考文献:
1.guisu《应用于统计和排序》//blog.csdn.net/hguisu/article/details/8131

posted @ 2015-01-15 15:18  J·A  阅读(177)  评论(0编辑  收藏  举报