SGI RB-tree深入理解

前言

在学习STL源码之前我也曾无数次想要弄懂红黑数的原理,奈何每次都被困难打退。说实话,红黑树是真的很难理解,需要不断沉淀才能慢慢体会其妙处。这两天看SGI的RB-tree实现,结合侯捷老师的《STL源码剖析》,终于将主要的源码看懂了,人生如此艰难!所以我写一篇文章,来记下理解的过程,可以加深印象,以后还可以迅速重温。注意,本文主要参考侯捷的《STL源码剖析》,图片也基本按照书上的原图画的。

RB-tree概述

RB-Tree是一种被广泛使用的平衡二叉树,也是SGI STL唯一实现的一种搜索树,作为关联性容器的底层机制之用。RB-tree是平衡二叉搜索树的一种,通过特定的操作来保持树的平衡,理解RB-tree之前,建议先理解二叉搜索树的原理,最好是能理解AVL树的原理。

RB-tree定义

所谓RB-tree不仅是一个二叉搜索树,而且必须满足以下规则:

1. 每个节点不是红色就是黑色。

2. 根节点为黑色。

3. 如果节点为红,其子节点必须为黑。

4. 任一节点至NULL(树尾端)的任何路径,所含之黑节点树必须相同。

根据规则4,新增节点必须为红;根据规则3,新增节点之父节点必须为黑。当新节点根据二叉搜索树的规则到达其插入点,却未能符合上述条件时,就必须调旋转树形和调整颜色。

插入节点

在RB-tree插入新节点,一共有四种不同的典型,下面将分别举例分析。如下图所示,在RB-tree分别插入 3,8,35,75,根据二叉树的规则,这四个新节点分别落脚点应该落在下图空心框位置,它们都破坏了RB-tree的规则,因此必须要调整树形,也就是旋转树形并改变节点颜色。注意,状况3和状况4和《STL源码剖析》侯捷讲的是不一样的,侯捷讲的是先选择后改变节点颜色。但我看源码实现只改变颜色。仔细分析其实侯捷讲的这种也没错,只是有些多余了,而且和源码不一致,会误导人,我觉得我这么分析更好。

 

为方便讨论,先定义一些代名。假设新节点为X,其父节点为P,祖父节点为G,伯父节点(父节点之兄弟节点)为S,曾祖父节点为GG。根据二叉搜索树的规则,新节点X必为叶节点,根据红黑树规则4,X必为红。若P亦为红(这就违反了规则3,必须调整树形),则G必为黑(因为原为RB-tree,必须遵循规则3)。

状况1:S为黑且X为外侧插入。对此情况,先对P,G做一次单旋转,再更改P,G颜色,即可重新满足红黑树的规则3,如下图所示。注意,此时可能产生不平衡状态(高度相差1以上)。例如图中旋转后的3左右节点肯定为NULL,但空心框不为空且其左右节点不为NULL。这倒没关系,因为RB-tree的平衡性本来就比AVL-tree弱。然而RB-tree通常能够保持良好的平衡状态。是的,经验告诉我们,RB-tree的搜寻平均效率和AVL-tree几乎相等。

 

 

 状况2:S为黑且X为内侧插入。对此情况,先对P,X做一次单旋转,再更改P,X颜色,再将结果对G做一次单旋转,即可重新满足红黑树的规则3,如下图所示。

 

状况3:S为红且X为外侧插入。对此情况,改变P和S为黑,G为红,如果GG为黑,一切搞定,如下图所示。但如果GG为红,则问题比较大......见状况4。

 

 

 状况4:S为红且X为外侧插入。对此情况,改变P和S为黑,G为红,此时GG亦为红,还得继续往上做,直到不再有父子连续为红的情况。

 

 

RB-tree节点设计

RB-tree的节点在二叉树的节点结构上增加红黑颜色属性,而且为了更好的进行插入和删除操作,增加指向父亲节点的指针。为了更大的弹性,STL红黑树的节点采用双层设计,STL红黑树的节点采用双层设计,base结构不依赖模板参数,带模板的节点结构继承base结构。从以下的源码中的 minimum() 和 maximum() 函数可以看出,RB-tree作为一个二叉搜索树,其极值是很容易找到的。

typedef bool __rb_tree_color_type;
const __rb_tree_color_type __rb_tree_red = false;    //红色为0
const __rb_tree_color_type __rb_tree_black = true;   //黑色为1

struct __rb_tree_node_base
{
  typedef __rb_tree_color_type color_type;
  typedef __rb_tree_node_base* base_ptr;

  color_type color;  //节点颜色,非红即黑
  base_ptr parent;   //RB树的许多操作必须知道父节点
  base_ptr left;     //指向左节点
  base_ptr right;    //指向右节点

  static base_ptr minimum(base_ptr x)
  {
    while (x->left != 0) x = x->left;  //一直向左走,就会找到最小值
    return x;                          //这是二叉搜索树的特性
  }

  static base_ptr maximum(base_ptr x)
  {
    while (x->right != 0) x = x->right;  //一直向右走,就会找到最大值
    return x;                            //这是二叉搜索树的特性
  }
};

//真正的节点定义,基类中不含模板参数
template <class Value>
struct __rb_tree_node : public __rb_tree_node_base
{
  typedef __rb_tree_node<Value>* link_type;
  Value value_field;  //节点值
};

RB-tree迭代器

要成功地将RB-tree实现为一个泛型容器,迭代器的设计是一个关键,首先要考虑它的型别(category),然后考虑它的前进(increment)、后退(decrement)、提领(dereference)、成员访问(member access)等操作。

为了更大的弹性,SGI将RB-tree迭代器实现为两层,这种设计理念和slist类似(slist学习后续补上)。下图(图片来自《STL源码剖析》)是双层节点结构和双层迭代器结构之间的关系,其中主要意义是:__rb_tree_node 继承自 __rb_tree_node_base,__rb_tree_iterator 继承自 __rb_tree_base_iterator。有了这样的认识,我们就可以将迭代器稍作转型,就可以解开RB-tree的所有奥秘,追踪其一切状态。从源代码可以看出,不论是RB-tree的节点还是迭代器,都是以struct完成,而struct的所有成员都是public,可被外界自由取用。

 

RB-tree迭代器属于双向迭代器,但不具备随机访问能力,其提领和成员访问操作比较特殊,有前进和后退操作。注意,RB-tree迭代器的前进操作 operator++() 调用了基层的 increment(),后退操作 operator--() 则调用了基层迭代器的 decrement()。前进或后退操作完全依据二叉搜索树的节点排序法则,再加上实现上的某些特殊技巧。至于特殊技巧主要与根节点有关。

//基层接迭代器
struct __rb_tree_base_iterator
{
  typedef __rb_tree_node_base::base_ptr base_ptr;
  typedef bidirectional_iterator_tag iterator_category;
  typedef ptrdiff_t difference_type;
  base_ptr node;  //它用来和容器之间产生一个连结关系
  
  //前进只用于operator++内,再无他出调用
  void increment()
  {
    if (node->right != 0) {        //如果有右子节点,下面操作
      node = node->right;          //使node取得右子树最小值
      while (node->left != 0)
        node = node->left;
    }
    else {                         //没有右子节点      
      base_ptr y = node->parent;   //取父节点
      while (node == y->right) {   //如果node是右子节点
        node = y;                  //继续上溯,直到不为右子节点为止
        y = y->parent;
      }
      if (node->right != y)        //若此时的右子节点不等于父亲节点
        node = y;                  //父亲节点即为答案,
    }
  }

  //前进只用于operator--内,再无他出调用
  void decrement()
  {
    if (node->color == __rb_tree_red &&  //如果是红且
        node->parent->parent == node)    //父节点的父节点等于自己
      node = node->right;                //右节点即为解答
      //以上情况发生于node为header时(即node为end())
      //header右子节点即mostright,指向整棵树max节点
    else if (node->left != 0) {          //存在左子节点
      base_ptr y = node->left;           //去左子树最大值
      while (y->right != 0)
        y = y->right;
      node = y;
    }
    else {                              //左子节点不存在
      base_ptr y = node->parent;        //取父节点
      while (node == y->left) {         //如果node是左子节点  
        node = y;                       //继续上溯,直到不为左子节点为止
        y = y->parent;
      }
      node = y;                         //此时y即为解答
    }
  }
};

//RB-tree正规迭代器
template <class Value, class Ref, class Ptr>
struct __rb_tree_iterator : public __rb_tree_base_iterator
{
  typedef Value value_type;
  typedef Ref reference;
  typedef Ptr pointer;
  typedef __rb_tree_iterator<Value, Value&, Value*>             iterator;
  typedef __rb_tree_iterator<Value, const Value&, const Value*> const_iterator;
  typedef __rb_tree_iterator<Value, Ref, Ptr>                   self;
  typedef __rb_tree_node<Value>* link_type;

  __rb_tree_iterator() {}
  __rb_tree_iterator(link_type x) { node = x; }
  __rb_tree_iterator(const iterator& it) { node = it.node; }

  reference operator*() const { return link_type(node)->value_field; }
#ifndef __SGI_STL_NO_ARROW_OPERATOR
  pointer operator->() const { return &(operator*()); }
#endif 

  self& operator++() { increment(); return *this; }
  self operator++(int) {
    self tmp = *this;
    increment();
    return tmp;
  }
    
  self& operator--() { decrement(); return *this; }
  self operator--(int) {
    self tmp = *this;
    decrement();
    return tmp;
  }
};

header实现技巧

树状结构的各种操作,最需要注意的就是边界情况的发生,也就是走到根节点时要有特殊的处理。为了简化处理,SGI特别为根节点再设计一个父节点,名为header,并令其初始状态如下图所示。

 

图左是RB-tree的初始化状态,图右是加入一个节点后的状态。接下来,每当插入新节点时,不但要按照RB-tree的规则来调整,并且维护header的正确性,使其父节点指向根节点,左子节点指向最小节点,右子节点指向最大节点。

RB-tree数据结构

下面是rb_tree的定义。其中定义专属的空间配置器,每次用来配置一个节点大小,KeyOfValue是获取key值得仿函数,Compare是用来比较节点大小的仿函数。还是其他的解析见代码注释,理解起来不难。

template <class Key, class Value, class KeyOfValue, class Compare,
          class Alloc = alloc>
class rb_tree {
protected:
  typedef void* void_pointer;
  typedef __rb_tree_node_base* base_ptr;
  typedef __rb_tree_node<Value> rb_tree_node;
  typedef simple_alloc<rb_tree_node, Alloc> rb_tree_node_allocator; //专属空间配置器
  typedef __rb_tree_color_type color_type;
public:
  //iterator定义在后面
  typedef Key key_type;
  typedef Value value_type;
  typedef value_type* pointer;
  typedef const value_type* const_pointer;
  typedef value_type& reference;
  typedef const value_type& const_reference;
  typedef rb_tree_node* link_type;
  typedef size_t size_type;
  typedef ptrdiff_t difference_type;
protected:
  link_type get_node() { return rb_tree_node_allocator::allocate(); }
  void put_node(link_type p) { rb_tree_node_allocator::deallocate(p); }

  link_type create_node(const value_type& x) {
    link_type tmp = get_node();        //配置空间
    __STL_TRY {
      construct(&tmp->value_field, x); //构造内容
    }
    __STL_UNWIND(put_node(tmp));
    return tmp;
  }

  link_type clone_node(link_type x) {  //复制一个节点(值和色)
    link_type tmp = create_node(x->value_field);
    tmp->color = x->color;
    tmp->left = 0;
    tmp->right = 0;
    return tmp;
  }

  void destroy_node(link_type p) {
    destroy(&p->value_field);  //释放内容
    put_node(p);               //释放内存
  }

protected:
  size_type node_count; //追踪记录树的大小(节点数量)
  link_type header;     //这是实现上的一个技巧
  Compare key_compare;  //节点间键值大小比较准则,应该是个function object

  //以下三个函数用来方便取得header的成员
  link_type& root() const { return (link_type&) header->parent; }
  link_type& leftmost() const { return (link_type&) header->left; }
  link_type& rightmost() const { return (link_type&) header->right; }

  //以下六个函数用来方便取得节点x的成员
  static link_type& left(link_type x) { return (link_type&)(x->left); }
  static link_type& right(link_type x) { return (link_type&)(x->right); }
  static link_type& parent(link_type x) { return (link_type&)(x->parent); }
  static reference value(link_type x) { return x->value_field; }
  static const Key& key(link_type x) { return KeyOfValue()(value(x)); }
  static color_type& color(link_type x) { return (color_type&)(x->color); }
  
  //以下六个函数用来方便取得节点x的成员
  static link_type& left(base_ptr x) { return (link_type&)(x->left); }
  static link_type& right(base_ptr x) { return (link_type&)(x->right); }
  static link_type& parent(base_ptr x) { return (link_type&)(x->parent); }
  static reference value(base_ptr x) { return ((link_type)x)->value_field; }
  static const Key& key(base_ptr x) { return KeyOfValue()(value(link_type(x))); } 
  static color_type& color(base_ptr x) { return (color_type&)(link_type(x)->color); }

  static link_type minimum(link_type x) { 
    return (link_type)  __rb_tree_node_base::minimum(x);
  }
  static link_type maximum(link_type x) {
    return (link_type) __rb_tree_node_base::maximum(x);
  }

public:
  typedef __rb_tree_iterator<value_type, reference, pointer> iterator;
  typedef __rb_tree_iterator<value_type, const_reference, const_pointer> 
          const_iterator;

  typedef reverse_iterator<const_iterator> const_reverse_iterator;
  typedef reverse_iterator<iterator> reverse_iterator;

private:
  iterator __insert(base_ptr x, base_ptr y, const value_type& v);
  link_type __copy(link_type x, link_type p);
  void __erase(link_type x);
  void init() {
    header = get_node();           //产生一个节点空间
    color(header) = __rb_tree_red; //令header为红,用来区分header和
                                   //root, 在iterator.operator--
    root() = 0;
    leftmost() = header;           //令header左子节点为自己
    rightmost() = header;          //令header右子节点为自己
  }
public:
  rb_tree(const Compare& comp = Compare())  //默认构造调init
    : node_count(0), key_compare(comp) { init(); }

  rb_tree(const rb_tree<Key, Value, KeyOfValue, Compare, Alloc>& x) 
    : node_count(0), key_compare(x.key_compare)  //拷贝构造
  { 
    header = get_node();
    color(header) = __rb_tree_red;
    if (x.root() == 0) {  //x根节点为空,整个过程其实和init一样
      root() = 0;
      leftmost() = header;
      rightmost() = header;
    }
    else { //存在x根节点
      __STL_TRY {
        root() = __copy(x.root(), header);  //调用全局复制函数
      }
      __STL_UNWIND(put_node(header));
      leftmost() = minimum(root());         //header左指针指向的最小值点
      rightmost() = maximum(root());        //header右指针指向的最大值点
    }
    node_count = x.node_count;
  }
  ~rb_tree() {
    clear();
    put_node(header);
  }
  rb_tree<Key, Value, KeyOfValue, Compare, Alloc>& 
  operator=(const rb_tree<Key, Value, KeyOfValue, Compare, Alloc>& x);

public:    
                                // accessors:
  Compare key_comp() const { return key_compare; }
  iterator begin() { return leftmost(); }               //RB-tree起头为最左节点处
  const_iterator begin() const { return leftmost(); }   //RB-tree终点为header所指处
  iterator end() { return header; }
  const_iterator end() const { return header; }
  reverse_iterator rbegin() { return reverse_iterator(end()); }
  const_reverse_iterator rbegin() const { 
    return const_reverse_iterator(end()); 
  }
  reverse_iterator rend() { return reverse_iterator(begin()); }
  const_reverse_iterator rend() const { 
    return const_reverse_iterator(begin());
  } 
  bool empty() const { return node_count == 0; }
  size_type size() const { return node_count; }
  size_type max_size() const { return size_type(-1); }

  void swap(rb_tree<Key, Value, KeyOfValue, Compare, Alloc>& t) {
    __STD::swap(header, t.header);
    __STD::swap(node_count, t.node_count);
    __STD::swap(key_compare, t.key_compare);
  }
    
public:
                                // insert/erase
  pair<iterator,bool> insert_unique(const value_type& x);
  iterator insert_equal(const value_type& x);

  iterator insert_unique(iterator position, const value_type& x);
  iterator insert_equal(iterator position, const value_type& x);

  template <class InputIterator>
  void insert_unique(InputIterator first, InputIterator last);
  template <class InputIterator>
  void insert_equal(InputIterator first, InputIterator last);

  void erase(iterator position);
  size_type erase(const key_type& x);
  void erase(iterator first, iterator last);
  void erase(const key_type* first, const key_type* last);
  void clear() {
    if (node_count != 0) {
      __erase(root());      //释放所有节点
      leftmost() = header;  
      root() = 0;
      rightmost() = header;
      node_count = 0;
    }
  }      

public:
                                // set operations:
  iterator find(const key_type& x);
  const_iterator find(const key_type& x) const;
  size_type count(const key_type& x) const;
  iterator lower_bound(const key_type& x);
  const_iterator lower_bound(const key_type& x) const;
  iterator upper_bound(const key_type& x);
  const_iterator upper_bound(const key_type& x) const;
  pair<iterator,iterator> equal_range(const key_type& x);
  pair<const_iterator, const_iterator> equal_range(const key_type& x) const;

public:
                                // Debugging.
  bool __rb_verify() const;
};

RB-tree元素操作

读源码过程中,发现真正的插入函数__insert(base_ptr x, base_ptr y, const value& v)的参数x几乎没什么用,对这个问题非常迷惑。后来查了一些资料,发现x是在调用一个insert重载函数时发挥作用。STL关联容器map/multimp,set/multiset,都是使用了红黑树的底层结构。insert有两个重载函数,一个insert(const Value&),另一个是insert_unique(iterator, const Value&),后者是带hint的插入。《C++标准程序库》中说道:若被安插元素位置恰好紧贴于提示位置之后,那么时间复杂度就会从“对数”变为“摊还常数”。当hint恰当时,可大大加快速度。

对于map和set,insert函数会调用rb-tree中的insert_unique版本,对于multimap和multiset,则调用rb-tree中的insert_equal版本。由于insert_equal较insert_unique简单一些,所以这里只分析insert_unique。

template <class Key, class Value, class KeyOfValue, class Compare, class Alloc>
typename rb_tree<Key, Value, KeyOfValue, Compare, Alloc>::iterator
rb_tree<Key, Value, KeyOfValue, Compare, Alloc>::
__insert(base_ptr x_, base_ptr y_, const Value& v) {
  //x_为新值插入点,y_为插入点父节点,参数v为新值
  link_type x = (link_type) x_;
  link_type y = (link_type) y_;
  link_type z;

  if (y == header || x != 0 || key_compare(KeyOfValue()(v), key(y))) {
    //y为header或x!=0或v小于父节点
    z = create_node(v);         //产生一个新节点
    left(y) = z;                //also makes leftmost() = z when y == header
    if (y == header) {          
      root() = z;
      rightmost() = z;
    }
    else if (y == leftmost())   //如果y为最左节点
      leftmost() = z;           //maintain leftmost() pointing to min node
  }
  else {
    z = create_node(v);         //产生一个新节点
    right(y) = z;               //令新节点称为y的右子节点
    if (y == rightmost())       //如果y为最右节点
      rightmost() = z;          //maintain rightmost() pointing to max node
  }
  parent(z) = y;
  left(z) = 0;
  right(z) = 0;
  __rb_tree_rebalance(z, header->parent);  //树调整
  ++node_count;
  return iterator(z);
}

template <class Key, class Value, class KeyOfValue, class Compare, class Alloc>
pair<typename rb_tree<Key, Value, KeyOfValue, Compare, Alloc>::iterator, bool>
rb_tree<Key, Value, KeyOfValue, Compare, Alloc>::insert_unique(const Value& v)
{
  link_type y = header;
  link_type x = root();
  bool comp = true;
  while (x != 0) {
    y = x;
    comp = key_compare(KeyOfValue()(v), key(x));
    x = comp ? left(x) : right(x);
  }
  iterator j = iterator(y);   
  if (comp)
    if (j == begin())     
      return pair<iterator,bool>(__insert(x, y, v), true);
    else
      --j;
  if (key_compare(key(j.node), KeyOfValue()(v)))
    return pair<iterator,bool>(__insert(x, y, v), true);
  return pair<iterator,bool>(j, false);
}


template <class Key, class Val, class KeyOfValue, class Compare, class Alloc>
typename rb_tree<Key, Val, KeyOfValue, Compare, Alloc>::iterator 
rb_tree<Key, Val, KeyOfValue, Compare, Alloc>::insert_unique(iterator position,
                                                             const Val& v) {
  if (position.node == header->left) // begin()
    if (size() > 0 && key_compare(KeyOfValue()(v), key(position.node)))
      return __insert(position.node, position.node, v);
  // first argument just needs to be non-null 
    else
      return insert_unique(v).first;
  else if (position.node == header) // end()
    if (key_compare(key(rightmost()), KeyOfValue()(v)))
      return __insert(0, rightmost(), v);
    else
      return insert_unique(v).first;
  else {
    iterator before = position;
    --before;
    if (key_compare(key(before.node), KeyOfValue()(v))
        && key_compare(KeyOfValue()(v), key(position.node)))
      if (right(before.node) == 0)
        return __insert(0, before.node, v); 
      else
        return __insert(position.node, position.node, v);
    // first argument just needs to be non-null 
    else
      return insert_unique(v).first;
  }
}

RB-tree旋转及改变颜色

inline void 
__rb_tree_rotate_left(__rb_tree_node_base* x, __rb_tree_node_base*& root)
{
  __rb_tree_node_base* y = x->right;  //取x右节点
  x->right = y->left;                 //x右指针指向y左节点
  if (y->left !=0)                    //y左节点存在
    y->left->parent = x;              //其父指针指向x,回马枪
  y->parent = x->parent;              //y父指针指向x父亲节点

  if (x == root)                      //当x为根节点时
    root = y;                         //根节点赋为y
  else if (x == x->parent->left)      //x为左子节点
    x->parent->left = y;              //x父节点左指针指向y
  else                                //x为右子节点
    x->parent->right = y;             //x父节点右指针指向y
  y->left = x;                        //y左指针指向x
  x->parent = y;                      //x父指针指向y,回马枪
}

//原理和左旋一样,只方向全部逆转,不再注解
inline void 
__rb_tree_rotate_right(__rb_tree_node_base* x, __rb_tree_node_base*& root)
{
  __rb_tree_node_base* y = x->left;
  x->left = y->right;
  if (y->right != 0)
    y->right->parent = x;
  y->parent = x->parent;

  if (x == root)
    root = y;
  else if (x == x->parent->right)
    x->parent->right = y;
  else
    x->parent->left = y;
  y->right = x;
  x->parent = y;
}

 

posted @ 2019-10-17 08:11  evenleo  阅读(500)  评论(0编辑  收藏  举报