【原创】【长期更新】【未完待续】自制vector类型

继《自制string类型》以来的第二篇自制类型的文章。马上要开学了，时间也不多了，争取在今年写完吧。

一，vector类型简单介绍

1.简介

1.1.STL

STL是一个C++自带的一个数据结构的类，包括栈，队列，字符串等功能。这些数据结构统称为容器（containers)。

1.2.vector

vector（向量），是一种经常被使用的容器。它可以看做是一种动态大小的数组，并且可以存放任何类型的数据（即泛型）。
这里给大家一个使用的例子：

#include<iostream>
#include<vector>
using namespace std;
int main(){
	vector<int> v;
	for(int i=0;i<10;i++){
		v.push_back(i);
		cout<<v[i]<<endl;
	}
	return 0;
}

关于更加具体的内容，笔者参考了一个网页：网页链接

2.vector有哪些函数？

（来源：网页链接）

1.构造函数
vector()//创建一个空vector
vector(int nSize)//创建一个vector,元素个数为nSize
vector(int nSize,const t& t)//创建一个vector，元素个数为nSize,且值均为t
vector(const vector&)//复制构造函数
vector(begin,end)//复制[begin,end)区间内另一个数组的元素到vector中
2.增加函数
void push_back(const T& x)//向量尾部增加一个元素X
iterator insert(iterator it,const T& x)//向量中迭代器指向元素前增加一个元素x
iterator insert(iterator it,int n,const T& x)//向量中迭代器指向元素前增加n个相同的元素x
iterator insert(iterator it,const_iterator first,const_iterator last)//向量中迭代器指向元素前插入另一个相同类型向量的[first,last)间的数据
3.删除函数
iterator erase(iterator it)//删除向量中迭代器指向元素
iterator erase(iterator first,iterator last)//删除向量中[first,last)中元素
void pop_back()//删除向量中最后一个元素
void clear()//清空向量中所有元素
4.遍历函数
reference at(int pos)//返回pos位置元素的引用
reference front()//返回首元素的引用
reference back()//返回尾元素的引用
iterator begin()//返回向量头指针，指向第一个元素
iterator end()//返回向量尾指针，指向向量最后一个元素的下一个位置
reverse_iterator rbegin()//反向迭代器，指向最后一个元素
reverse_iterator rend()//反向迭代器，指向第一个元素之前的位置
5.判断函数
bool empty() const//判断向量是否为空，若为空，则向量中无元素
6.大小函数
int size() const//返回向量中元素的个数
int capacity() const//返回当前向量所能容纳的最大元素值
int max_size() const//返回最大可允许的vector元素数量值
7.其他函数
void swap(vector&)//交换两个同类型向量的数据
void assign(int n,const T& x)//设置向量中前n个元素的值为x
void assign(const_iterator first,const_iterator last)//向量中[first,last)中元素设置成当前向量元素

二，泛型

1.什么是泛型？

最简单的例子：

#include<iostream>
#include<vector>
using namespace std;
int main(){
	int a=5,b=10;cout<<max(a,b);
	float c=3.14,d=9.99;cout<<max(c,d);
	char e='x',f='*';cout<<max(e,f);
}

这里，max函数即可以处理int，又可以处理float,char类型的最大值。这就是泛型。max函数无论针对哪一个类型，操作都是相同的。因此，我们使用通用类型，让函数不关注类型只关注具体的操作。
有人会问，其实使用函数重载不就能完成了吗？（不了解函数重载是什么的，请看我前面写过的《自制string类型》，里面有说明）但是，函数重载要重复写好几次，不方便。

2.泛型的实现

2.1.函数模板

在写真正的vector泛型之前，我们首先使用MAX函数练习一下，借此看看如何写泛型。

#include<iostream>
#include<vector>
using namespace std;
template<typename T>
T MAX(T a,T b){
	if(a>b)return a;
	else return b;
}
int main(){
	int a=5,b=10;cout<<MAX(a,b);
	float c=3.14,d=9.99;cout<<MAX(c,d);
	char e='x',f='*';cout<<MAX(e,f);
}

template表示定义一个叫做T的类型，这个类型是一个通用类型。这个语句告诉编译器，要开始泛型编程，其中T是要使用的泛型类型。
执行的时候，编译器会自动根据参数的类型，把T转换为int,float等类型，进行计算。
注意，泛型的函数不会进行自动类型转换，例如cout<<MAX('a',100);这个语句，如果使用的是泛型类型，会编译错误，但是使用普通类型不会报错，因为普通类型的函数会进行自动类型转换。

2.2.类模板

写法和函数模板非常类似。

template<typename T>
class Vector{
	T *numbers;
	
};

在声明Vector类型的时候，需要注意：声明不能写成：

Vector v;

而必须写成：

Vector<int>v;

这样才可以告诉编译器需要定义的类型。

三，相关函数写法

1.构造函数

终于来到写函数的时候了。第一个写的函数一定是构造函数。我们知道，vector其实是一个“动态数组”，而动态数组的实现需要依靠指针。我们使用一个变量n来记录目前vector内部的元素个数。
最开始的时候，整个向量内部为空，那么n为0，并且无法存放数据。在放入数据的时候，向量会申请空间，来放入数据。
四个构造函数：

class Vector{
	T *numbers;
	int n;
	Vector(){
		n=0;
	}
	Vector(int nsize){//初始化大小
		n=nsize;
		numbers=(T*)malloc(nsize*sizeof(T));
	}
	Vector(int nsize,T t){//初始化大小并放入nsize个t
		n=nsize;
		numbers=(T*)malloc(nsize*sizeof(T));
		for(int i=0;i<nsize;i++)numbers[i]=t;
	}
	Vector(Vector <int> &v){//复制另一个vector的东西
		n=v.n;
		numbers=(T*)malloc(n*sizeof(T));
		for(int i=0;i<nsize;i++)numbers[i]=v.numbers[i];
	}
};

为什么使用malloc不用new？因为malloc出来的内存可以realloc，而new的不行。代码很简单，就不多说了。

2.增加函数

2.1.push_back

功能：往最后一个元素的后面再加一个元素

void push_back(T x){
		n++;
		if(n==1)numbers=(T*)malloc(n*sizeof(T));
		else numbers=(T*)realloc(numbers,n*sizeof(T));
		T[n-1]=x;
}

如果只有一个元素，那么执行Malloc。如果已经有元素了，那么执行realloc。
但是，不断的realloc是非常慢的。下面内容引用自《征服C指针》：

我们经常需要对数组顺次追加元素，这种情况下，如果每追加一个元素都利用 realloc()进
行内存区域扩展，将会发生什么呢？
如果手气不错，后面正好有足够大的空地儿，这样还好。如果不是这样，就需要频繁地复制
区域中的内容，这样自然会影响运行效率。另外，不断地对内存进行分配、释放的操作，也
会引起内存碎片化。

最好的做法是一次性多分配一些空间（例如100个sizeof(T)）。但是这样就要多在类里面加一个变量，函数也会变得很复杂。我们还是考虑把realloc封装起来吧。

class Vector{
	T *numbers;
	int n;//大小 
	int memory;//已经分配的内存 
	
	T* Allocate(T *mem,int newsize){
		n=newsize;
		if(memory>=n)return NULL;
		else memory=newsize+100,return realloc(mem,newsize+100);
	}

如果返回NULL，说明内存已经足够，否则就返回realloc的新的地址。

void push_back(T x){
		n++;
		if(n==1)numbers=(T*)malloc(n*sizeof(T));
		else if (Allocate(numbers,n*sizeof(T))!=NULL)numbers=Allocate(numbers,n*sizeof(T));
		numbers[n-1]=x;
	}

上面是修改的push_back示例。这样就方便多了。
当然，为了实现起来方便，本文之后的所有例程都写作realloc的形式，便于理解和阅读。

2.2.insert函数

insert的作用是插入，我们目前是使用数组进行存储的，因此，插入和删除需要移动元素（顺序表，如果是链表则没有这个问题）
为了制造起来方便，我们这样规定：vector插入的东西必须是一个vector中的东西或者数组。至于什么迭代器iterartor，就不做了。
同时，为了初始化方便，我们制作一个可变长函数用于初始化元素，如下：
Vector(数组长度n,元素1,元素2,...,元素n);

Vector(int nsize,...){
		n=nsize;
		numbers=(T*)malloc(nsize*sizeof(T));
		va_list ap;
		va_start(ap,nsize);
		for(int i=0;i<n;i++)numbers[i]=va_arg(ap,T);
		va_end(ap);
	}

可变长函数的基本格式：

函数名 (参数,...){
  va_list ap;
  va_start(ap,[省略号前最后一个元素]);
  for(int i=0;i<[个数];i++){
    ...va_arg(ap,[参数类型]);//用于取得省略的参数
  }
  va_end(ap);
}

（以下为9月1日 22:00的更新内容）

插入元素的操作是非常简单的，只需要后移元素，腾出位置给要插入的元素，再把要插入的元素放进去。
插入元素（数组版本）

void insert(int pos,int *start,int *end){
  int len=end-start+1;
  numbers=realloc(numbers,len+n);
  for(int i=n-1;i>=pos+1;i++){
    numbers[i+len]=numbers[i];
  }
  memcpy(numbers+pos,start,len);
  n+=len;
}

元素后移，然后直接使用memcpy进行元素的拷贝。注意移动元素的时候，要从后往前复制元素。当然，这个操作可以使用memmove实现。多说几句，memmove在需要复制的内存有重叠的时候，会自动考虑从后往前和从前往后，而memcpy不会。因此，这类情况，由于从前往后会导致后面的元素被覆盖，因此我们需要从后往前，因为后面是空的内存，这样就不会出问题。

注：一开始的时候，这个函数忘记写n+=len一句，已修正。

（以下为9月2日 18:00的更新内容）
插入元素的向量版本，也就是插入另外一个向量中的内容：

void insert(int pos,Vector v,int begin,int end){//插入另一个vector中的内容
  int len=end-begin+1;
  int a[len];//C99支持以变量作为数组元素个数
  for(int i=0;i<len;i++){
    a[i]=v.numbers[i+begin];
  }
  insert(pos,a,a+len);//调用数组版本的插入操作
}

需要注意的是int a[len]这种写法，在老版本的C语言是不支持的，因为必须使用数字常量来指定元素的个数。
并且，这里说的常量不包括const定义的常量，这种常量其实只是“只读变量”，只是在编译的时候进行检查而已。（局部变量是这个结论，但是全局变量不是这个结论。全局变量的内容在内存中放置在只读的区域，强制修改会segmentation fault）而C99以及之后的版本是支持使用变量作为数组的元素个数的。C++的，const的含义也是改变的，也可以使用const定义的常量来作为数组的元素个数。

（以下为9月3日的更新内容）

3.删除函数

3.1.pop_back函数

作用是删除向量中最后一个元素。实现起来也是非常简单的。

void pop_back(){
    --n;
}

其实根本没有必要删除，只需要将长度减去1，这样再次放入元素的时候，会直接覆盖掉上次未删除的的元素。在遍历的时候，由于是根据长度n遍历，所以也不会出现问题。

3.2.clear函数

作用是清空向量中所有的元素。

void clear(){
    n=0;
}

非常简单，原理上面已经说过了，只需要将大小设定为0即可。

（以下为9月4日的更新内容）

3.3.erase函数

其实和string中的erase很相似。

2.3.3.erase操作
erase(int p,int n)
删除从p开始的n个字符。
void erase(int p,int n){
int front=p+1,rear=p+n;
while(str[rear]!=’\0’){
str[front]=str[rear];
++front;++rear;
}
str[front]=’\0’;
}
我们使用覆盖的方法，设置一头一尾两个指针，每次把尾指针的内容复制到头指针，直到尾指针指向的字符为0。如果不为0，那么就继续下一个字符。例如，把abcdefg的第三个字符到第五个字符删除。我们用列表的方式来看一下。
1 2 3 4 5 6 7
a b c d e f g
a b F d e F g
a b f G e f G
a b f g 0 f g
其中，大写字母表示头指针和尾指针所在的位置。可以看到，把后面的字符逐个放到前面，最后添上0即可。因为添上了0，最后不用删除，字符串自动结束。

实际上，vector的erase，算法和string的erase函数都是类似的。其实我们完全可以把string看作是一个元素为char的vector。只不过，vector判断结束的方法是根据rear是否等于n，而string的则是判断str[rear]是否等于结束符\0。

void erase(int p,int n){
  int front=p+1,rear=p+n;
  while(rear!=n){
    numbers[front]=numbers[rear];
    ++front;++rear;
  }
  n=n-p+1;
}

不过参数中的n和vector类的n重名了，我们最好把参数的n修改一下名字，代码略。

（以下为9月5日的更新内容）

4.遍历函数

4.1.at函数

最近进度感觉还是很快的。at函数返回的是某一个元素的引用，其实引用就是一个受限的指针，只不过在写法上不太相同。
为什么这样说呢？我们看两个函数，已经是很老的例子了，swap函数。

void swap_p(T *a,T *b){
  T temp=*a;*a=*b;*b=temp;
}
void swap_r(T &a,T &b){
  T temp=a;a=b;b=temp;
}

p是pointer的略语，r是reference的略语。
我们观察函数，发现两个不同点：
1，定义不同：指针是T*，引用是T&。
2，解引用不同：指针需要在引用数值时添加*，引用则不需要。

因此，我们发现：引用其实就是在做“引用这个地址对应的元素”的时候，不需要写*号而已。
那么，我们再验证一下，at函数。

T& at_r(int i){
  return numbers[i];
}
T *at_p(int i){
  return numbers+i;
}

在调用的时候，指针版本的at_p，需要写作*at_p(i)的形式，来取数值，而引用版本的不需要。这也再次证明，其实引用并不是什么所谓的“别名”，就是一个受限的指针。写法上，不需要写*号，这是唯一区别。内部上，其实引用还是按照指针来传递。只不过在使用的时候，看上去像值传递一样，因为不用写*号。
真正的at函数，就按照at_r写了。
上面关于什么“引用和指针”的内容，看不懂也没关系，如果你还是按照“引用就是别名”这一思想去理解，在写代码的时候也没有太大问题。但是，这是事实。再例如《征服C指针》说的，C语言不存在多维数组，本质其实是“数组的数组”。既然我们在研究C++的语法，这点东西我希望大家能够理解。

如果感觉这段说的不清楚，可以看这个网页。这里也非常感谢原文作者的科普。

4.2.[]运算符

运算符重载好久不写了，忘记的人自己看看《自制string》吧。

T &operator[](int i){
  return numbers[i];
}

很简单吧。不再多说了。

(以下为9月13日 20:00更新的内容)
看在阅读量到了10的份上，我就再更新一下吧。其实对于遍历函数这一部分，是非常简单的。

4.3.front和back

T &front(){
  return *numbers;
}
T &rear(){
  return numbers[n-1];
}

感觉太简单了？讲点干货吧。front里面返回的是numbers[0]，也可以写作*numbers。这两种写法是等价的。最早C语言中，下标运算符其实只是指针的简写形式，*(a+i)写作a[i]。因此，说什么“a[i]是a的数组的第i个元素”，这种说法是错误的。（更准确的说，这个说明在部分情况下是错误的）*a也不一定是什么“指向a的指针”。因为：例如数组元素a[2]
a[2]=*(a+2)=*(2+a)=2[a]
把a[2]写成2[a]完全不会报错。这种情况，还能说是“名叫2的数组的第a个元素”吗？而且，文中*a的写法，其实是：
a[0]=*(a+0)=*a
这样可以少写几个字符。
当然，把a[i]写成i[a]，对于我们写代码没有任何帮助，因为它太另类了。

posted @ 2021-08-31 13:21 计算机知识杂谈阅读(104) 评论(0) 编辑收藏举报

刷新页面返回顶部