代码改变世界

数据结构利器之私房STL(上)

2012-12-02 16:13  捣乱小子  阅读(2444)  评论(4编辑  收藏  举报

索引

 


这篇文章 http://www.cnblogs.com/daoluanxiaozi/archive/2012/12/02/confidential-stl.html 由于严重违反了『博客园首页』的相关规则,因此笔者改将《私房STL》系列的每一篇都整合到博客园中,取消外链的做法。另,考虑篇幅的问题,此系列文章将分为上、中、下。此篇为《数据结构利器之私房STL(上)》,中篇和下篇将陆续发布。喜欢就顶下吧:-)

此系列的文章适合初学有意剖析STL和欲复习STL的同学们。

学过c++的同学相信都有或多或少接触过STL。STL不仅仅是c++中很好的编程工具(这个词可能有点歧义,用类库更恰当),还是学习数据结构的好教材。它实现了包括可边长数组,链表,栈,队列,散列,映射等等,这些都是计算机专业同学在数据结构这门核心课程当中需要学习的。

在深入一个工具之前,首先要熟练使用它。STL也一样。在剖析STL之前,可以先动手使用STL,比如其中的vector,list,stack等,热热身,而使用比剖析简单的多,何乐而不为呢。网上很多仁人志士都推荐《C++标准程序库》,这本书好!但如果是新手,又急于了解如何使用STL,那么我更倾向于选择一般的c++书籍(里面有简单的STL使用范例)。另外,还推荐c++ reference站点:http://www.cplusplus.com/google更不在话下。注意,如果你已经通读《C++标准程序库》,那么至多是熟练使用STL而已,但不能说精通STL。欲精通STL,必剖之。

工欲善其事,必先利其器,剖析STL你需要做什么?剖析STL可能需要熟悉c++的基本的语法,了解泛型编程等。最后是《STL源码剖析》

此系列的文章无意巨细分析STL内部具体实现,因为互联网上有很多大牛(@July @MoreWindows 待补充,他们的文章链接会在对应的文章中给出)的作品,STL内的一些算法和实现都已经解释的很详细了,不再班门弄斧。相反,此系列意在为STL中的每一部件作简要的总结说明,并穿插其中实现的技巧。

  1. 私房STL之vector
  2. 私房STL之list
  3. 私房STL之deque
  4. 私房STL之stack与queue
  5. 私房STL之一分钟的heap

 


私房STL之vector

一句话vector:vector的空间可扩充,支持随机存取访问,是一段连续线性的空间。所以它是动态空间,与之对比的array是静态的空间,不可扩充。简单来说,vector是数组的增强版。

vector创建与遍历

vector提供了几个版本的构造函数。详见:http://www.cplusplus.com/reference/stl/vector

比如:

vector<int> iv(3,3);	/*3,3,3*/

又或:

......
vector<int>::iterator beg = iv.begin(),
end = iv.end();
cout << *beg << endl;
......

vector删除

在经常需要删除操作earse()(插入操作也一样insert())的地方,不建议使用vector容器,因为删除元素会导致内存的复制,无疑增加系统开销。最为极端的情况,删除vector首部的元素:

a b c d e f g h
b c d e f g h h
b c d e f g h

当然,有更好的做法,为了避免内存复制,在删除的时候,将需要删除的目标与vector尾端的元素交换,然后才执行删除操作,但这无疑也增加了一个指向vector尾端元素的空间开销。

a b c d e f g h
h b c d e f g a
h b c d e f g

vector陷阱

需要注意的是,vector备用空间是有限的,当发现备用空间不够用的时候,vector是另外新分配一个比原有更大的空间(原有空间*2),然后把原有的内容倒腾到新的空间上去,接着释放原有的空间。所以迭代器的使用就要特别小心了,在插入元素之后,很可能之前声明定义的迭代器都失效了。

......
vector<int> iv(3,3);

iv.push_back(10);	/*3,3,3,10*/

vector<int>::iterator beg = iv.begin(),
	end = --iv.end();

cout << iv.size() << " " << *beg << " " << *end << endl;	/*4 3 10*/

iv.push_back(20);
cout << iv.size() << " " << *beg << " " << *end << endl;	/*bomb.invalid iterator.*/
......
bomb!!!

vector元素排序

#include <iostream>
#include <vector>
#include <algorithm>
using namespace std;

int main()
{	
	vector<int> iv(3,3);
	unsigned int i;

	/*add new elem.*/
	iv.push_back(10);
	iv.push_back(9);
	iv.push_back(0);

	vector<int>::iterator beg = iv.begin(),
		end = iv.end();

	/*print.*/
	for(i=0; i<iv.size(); i++)
		cout << iv[i] << " ";
	cout << endl;

	/*sort.*/
	sort(beg,end);

	/*print.*/
	for(i=0; i<iv.size(); i++)
		cout << iv[i] << " ";
	cout << endl;

	return 0;
}

3 3 3 10 9 0
0 3 3 3 9 10
请按任意键继续. . .

vector查找

按上述遍历元素的方法查找,复杂度为O(n)。STL算法实现了find(),可以在指定的迭代器始末寻找指定的元素。

......
vector<int> iv(3,3);
unsigned int i;

/*add new elem.*/
iv.push_back(10);
iv.push_back(9);
iv.push_back(0);

vector<int>::iterator beg = iv.begin(),
	end = iv.end(),
	ret;

ret = find(beg,end,10);

cout << *ret << endl;
......

建议

之于array,vector虽略胜一筹,但有它的硬伤,那就是它动态增大的时候,空间操作耗费大,特别是当vector内的元素很多的时候。

vector还提供insert,earse,clear等元素的操作,不一一复述。最后是很不错的vector文档:http://www.cplusplus.com/reference/stl/vector/

本文完 2012-10-16

捣乱小子 http://www.daoluan.net/


私房STL之list

一句话list:list是我们在数据结构中接触过的双向循环链表,应用有约瑟夫环;可见其空间非连续的,但可以动态扩充,效率很高,只是不支持随机访问,必须通过迭代器找到指定的元素。总的来说,list用起来比较顺手。

list_node

list的查找

按上述遍历元素的方法查找,复杂度为O(n)。STL算法实现了find(),可以在指定的迭代器始末寻找指定的元素。

......
list<int> il;

il.push_back(5);
il.push_back(98);
il.push_back(7);
il.push_back(20);
il.push_back(22);
il.push_back(17);

list<int>::iterator ite;
ite = find(il.begin(),il.end(),20);
cout << *ite << endl;/*20*/
......

list创建与遍历

STL中也为list实现了几个版本的构造函数:http://www.cplusplus.com/reference/stl/list/list/,有最简单缺省的版本。

list的遍历使用迭代器,如下:

#include <iostream>
#include <list>
#include <algorithm>
using namespace std;

int main()
{	
	unsigned int i;
	list<int> il;

	il.push_back(5);
	il.push_back(98);
	il.push_back(7);
	il.push_back(20);
	il.push_back(22);
	il.push_back(17);

	list<int>::iterator ite;
	for(ite = il.begin(); ite != il.end(); ite++)
		cout << *ite << " ";
	cout << endl;

	return 0;
}

list在空间拓展的时候,没有经历vector式的空间倒腾,所以只要不earse元素,指向它ite是不会失效的。

list元素操作

list有提供pop_back,erase,clear,insert等实用的元素操作,不一一复述,给出有用的文档:http://www.cplusplus.com/reference/stl/list/

list排序

STL算法(<algorithm>)实现的sort只适用于支持随机访问的数据,所以它不适用于list,list不支持随机访问。所以list内部实现了自己的sort,内部排序使用使用迭代版本的快排。

unsigned int i;
list<int> il;

il.push_back(5);
il.push_back(98);
il.push_back(7);
il.push_back(20);
il.push_back(22);
il.push_back(17);

list<int>::iterator ite;
for(ite = il.begin(); ite != il.end(); ite++)
	cout << *ite << " ";
cout << endl;

il.sort();

for(ite = il.begin(); ite != il.end(); ite++)
	cout << *ite << " ";
cout << endl;

return 0;

5 98 7 20 22 17
5 7 17 20 22 98
请按任意键继续. . .

建议

list使用轻松自如,硬伤是由于空间的个性(不连续),不能随机访问。

本文完 2012-10-16

捣乱小子 http://www.daoluan.net/


私房STL之deque

一句话deque:deque是双端队列,它的空间构造并非一个vector式的长数组,而是“分段存储,整体维护”的方式;STL允许在deque中任意位置操作元素(删除添加)(这超出了deque的概念,最原始的deque将元素操作限定在队列两端),允许遍历,允许随机访问(这是假象);我们将看到,deque将是STL中stack和queue的幕后功臣,对deque做适当的修正,便可以实现stack和queue。

bug,deque_in_real

deque的迭代器

deque的迭代器与一般的迭代器不同,并不是vector或者list的普通指针式迭代器,有必要写下。

......
typedef T** map_pointer;
T* cur;//指向当前元素
T* first;//指向缓冲区头
T* last;//指向缓冲区尾巴
map_pointer node;//二级指针,指向缓冲区地址表中的位置
......

实现的复杂度可见一斑。正是因为deque复杂的空间结构,其迭代器也想跟着复杂晦涩。于是很容易令人产生异或!

为什么要用这么复杂的空间结构

同学A会疑问:“为什么不直接使用似vector抑或array一个长的数组?这样实现起来简单,而且迭代器也不会像”这个问题很容易被解决,想想:array就不用解释了,因为它是静态的空间,不支持拓展;另外,回想一下,vector在做空间拓展的时候,是如何劳神伤肺?!vector是依从“重新配置,复制,释放”规则,这样的代价是很划不来的。所以宁愿实现复杂的迭代器,来换取宝贵的计算机资源。

那么deque在做空间拓展的时候是如何做的呢?

如果缓冲区中还有备用的空间,那么直接使用备用的空间;否则,另外配置一个缓冲区,将其信息记录到缓冲区地址表里;更有甚者,如果缓冲区地址表都不够的时候,缓冲区地址表也要严格依从“重新配置,复制,释放”规则,但相比对“重新配置,复制,释放”规则宗教式追狂热的vector而言,效率高很多。

deque的创建与遍历

STL中deque有提供多种版本的构造函数,一把使用缺省构造函数。

......
deque<int> id;
......

同样,虽迭代器庞杂,但使用游刃有余,和其他的容器保持一致;并且,迭代器有重载“[]”运算符,所以支持“随机访问”(其实这是假象,详见上述内容)。

......
deque<int> id;

id.push_back(1);
id.push_back(2);
id.push_back(3);
id.push_back(4);
id.push_back(5);
id.push_back(6);

cout << id[2] << endl;	/*3*/
......

deque的查找

有迭代器在,查找可以用STL<algorithm>内部实现的find()。当然,有重载“[]”运算符,按普通的顺序查找也可行。这里只给出迭代器版本:

......
deque<int> id;

id.push_back(1);
id.push_back(2);
id.push_back(6);

deque<int>::iterator ite;

ite = find(id.begin(),id.end(),6);
cout << *ite << endl;	/*6*/
......

deque的排序

我们已经知道,deque实际不是连续的存储空间,它使用了“分段存储,整体维护”的空间模式,当然代价是庞杂的迭代器。所以STL<algorithm>的sort()函数在这里并不适用。侯杰老师推荐,将deque所有的元素倒腾到一个vector中,再用STL<algorithm>的sort()函数,再从vector中倒腾进deque中。这种折腾是必须的,直接在的deque内部进行排序,效率更低。

建议

deque在实际的应用当中使用的比较少,但正如文章开头指出的,它是容器stack和queue的幕后功臣,所以了解它的内部实现机制多多益善。

本文完 2012-10-17

捣乱小子 http://www.daoluan.net/


私房STL之stack与queue

一句话stack和queue:相对于deque,stack和queue没有那么底层,他们大部分底层的操作都由deque一手操办,特别的stack和queue是deque的子集(换句话说,stack、queue管deque叫老爹);通过关闭或者限制deque的一些接口就可以轻易实现stack和queue(STL源码剖析中管这种机制叫“adapter”。);由stack和queue的定义来看,它们的遍历动作是不被允许的,没有迭代器概念;有趣的是,通过修改list的接口,同样可以让list假冒stack和queue。

stack

==================

queue

stack的创建与遍历

除了默认的构造函数,stack和其他很多容器一样,支持依据vector中元素创建stack。只给出默认版本:更多的资料:http://www.cplusplus.com/reference/stl/stack/stack/

.....
stack<int> is;

is.push(4);
is.push(3);
is.push(2);
is.push(1);
is.push(0);

while(!is.empty())
{
	cout << is.top() << " ";
	is.pop();
}//	while	/*0 1 2 3 4*/
.....

stack不允许遍历!

queue的创建与遍历

......
queue<int> iq;

iq.push(4);
iq.push(3);
iq.push(2);
iq.push(1);
iq.push(0);

cout << iq.back() << endl;	/*0*/

while(!iq.empty())
{
	cout << iq.front() << " ";
	iq.pop();
}//	while	/*4 3 2 1 0*/
......

queue不允许遍历!

stack/queue的查找和排序

stack/queue不允许遍历!

关于stack的top()和pop()

在数据结构的课程中,习惯将上面两个功能都整合到pop中去,但STL分开了,一个函数只做一件事情,在queue中也是这样做的。

......
Sequence c;		//	底层容器
......
reference top()	{	return c.back();	}
void pop()	{	c.pop_back();	}
......

从Sequence c的定义当中可以看出一些端倪,stack允许用户选定底层容器,所以list此时可以作为底层容器来实现stack/queue。

......
stack<int,list<int>> is;

is.push(4);
is.push(3);
is.push(2);
is.push(1);
is.push(0);

while(!is.empty())
{
	cout << is.top() << " ";
	is.pop();
}//	while	/*0 1 2 3 4*/
......

建议

stack/queue在实际应用用的比较多,两者有很大的共性,因此queue被提取出来。嘿嘿,突然对STL肃然起敬。

关于更多的stack和queue请参看:http://www.cplusplus.com/reference/stl/stack/http://www.cplusplus.com/reference/stl/queue/

本文完 2012-10-19

捣乱小子 http://www.daoluan.net/


私房STL之一分钟的heap

一句话的heap:一种数据结构,完全二叉树(若二叉树高h,除过最底层h层,其他层1~h-1都是满的;并且最底层从左到右不能有空隙。),但在实现上,它没有选择一般的二叉树数据结构(即一个节点包含指向两个孩子的指针),使用的是数组;heap最为常用的操作是上溯和下溯,它们在“维持堆”和“堆排序”中经常用到。这篇文章能让你快速回顾heap。

 

完全二叉树(左)和非完全二叉树(右)

===============================================

完全二叉树的数组存储(对应上图左),X是实现上的技巧,刻意空出来

 

如果某节点位于数组i处,那么那么2i即为其左子结点,2i+1即为其右子结点。

最大堆和最小堆

堆有有最大堆和最小堆两种。最大堆即根节点的键值比其他所有节点键值都大;最小堆即根节点的键值比其他所有节点键值都小。只讨论最大堆,最小堆和最大堆思路如出一辙,便不一一复述了。

上溯和下塑

上溯操作主要用在“push_heap”过程中维持堆性质;下塑操作经常用在“sort_heap”过程中维持堆性质。

上溯:某节点与父节点比较,如果其键值比父节点大,即交换父子节点。重复上述操作,直到不需要交换或者到达根节点为止。

上溯

下塑:此节点为与堆顶,拿其与min(左子结点键值,右子结点键值)比较,如果父节点键值小过min,即交换父子节点。重复上述操作,直到不需要交换为止。

下溯

堆的形成

任务:给定一个数组,将其转换为最大heap。STL中make_heap()函数可以完成,它的思路:从最底层开始维持每一个子堆。看图:

 

make-heap

还有一种可行的思路,即:先假设堆中的元素个数为0,然后向(尾端+1)(意即尾端后的一个位置)push一个新的元素,然后在这个位置执行上溯操作。重复上述操作,直至数组内所有的元素都push完为止。我们发现这个方法也是可行的。

堆排序

任务:给定一个最大heap,实现数组排序。思路不拐弯抹角,很直接:因为堆顶对应最大的元素swap(堆顶节点,最大heap最右一个节点);不处理最后一个节点,从堆顶下溯。注意,下溯操作过后,除过最后一个节点,现有数据仍为一个最大堆。

堆排序的算法复杂度可以达到O(NlnN),在“排序算法家族”当中效率还是很靠前的。关于heap的算法都在STL<algorithm>中实现,STL只实现了最大堆。

......
vector<int> iv(a,a+7);
unsigned int i;

vector<int>::iterator beg = iv.begin(),
	end = iv.end(),ite;

for(ite = beg; ite!=end; ite++)
	cout << *ite << " ";
cout << endl;	/*1 3 9 11 21 100 4*/

make_heap(beg,end);

for(ite = beg; ite!=end; ite++)
	cout << *ite << " ";
cout << endl;	/*100 21 9 11 3 1 4*/

sort_heap(beg,end);

for(ite = beg; ite!=end; ite++)
	cout << *ite << " ";
cout << endl;	/*1 3 4 9 11 21 100*/
......

max-heap实现priority_queue

priority_queue带权值的queue,顺序入队之后,按照权值的大小出队。max-heap正好可以满足这个需求,max-heap的堆顶元素总是最大的。priority_queue在实现上已vector为底层容器,这与queue相差很大。

 

template<class _Ty,
	class _Container = vector<_Ty>,
	class _Pr = less<typename _Container::value_type> >
	class priority_queue
{......}

本文完 2012-10-19

捣乱小子 http://www.daoluan.net/