Python实现字典树
字典树,又称单词查找树,Trie 树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
注:定义来自百度百科。
字典树的主要性质
它有 3 个基本性质:
- 根节点不包含字符,除根节点外每一个节点都只包含一个字符;
- 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;
- 每个节点的所有子节点包含的字符都不相同。
基本功能介绍
在接下来的内容里,我们将逐步介绍字典树的具体功能是如何实现的。
1. 创建 TrieNode 类
创建一个 TrieNode 的类,构建内置字典结构
具体实现代码如下
class TrieNode: def __init__(self): self.nodes = dict() # 构建字典 self.is_leaf = False
2. 添加 insert 函数
插入一个字到字典树中
具体实现代码如下:
def insert(self, word: str): curr = self for char in word: if char not in curr.nodes: curr.nodes[char] = TrieNode() curr = curr.nodes[char] curr.is_leaf = True
3. 添加 insert_many 函数
插入一列表的字到字典树中
具体实现代码如下:
def insert_many(self, words: [str]): for word in words: self.insert(word)
4. 添加 search 函数
在字典树里面查询一个字
具体实现代码如下:
def search(self, word: str): curr = self for char in word: if char not in curr.nodes: return False curr = curr.nodes[char] return curr.is_leaf
最终代码如下:
class TrieNode: def __init__(self): self.nodes = dict() # 构建字典 self.is_leaf = False def insert(self, word: str): curr = self for char in word: if char not in curr.nodes: curr.nodes[char] = TrieNode() curr = curr.nodes[char] curr.is_leaf = True def insert_many(self, words: [str]): for word in words: self.insert(word) def search(self, word: str): curr = self for char in word: if char not in curr.nodes: return False curr = curr.nodes[char] return curr.is_leaf
用在统计和排序大量字符串,如自动机。字典树能做前缀搜索,在正则匹配,数据压缩,构建索引都可能用到。