探秘C++机制的实现

我曾经自学过C++，现在回想起来，当时是什么都不懂。说不上能使用C++，倒是被C++牵着鼻子走了。高中搞NOIP并不允许使用STL库，比赛中C++面向对象的机制基本没有什么用武之地，所以高中搞NOIP名为用C++，其实就是c加上了cout和cin。

前几天看韩老师的《老码识途》，里面记录了一些C++面向对象机制的探索，又勾起了我的兴趣。而这个学期自学了汇编，又给了我自己动手探索提供了能力基础，自己上手以后，从一个更加底层的视角看C++机制的实现，让我在黑暗中摸到了驯服C++的缰绳。

引用：

本质上是指针，这一点即使大家没有看反汇编应该也是猜到了。

对象在内存上的布局：

   1: class Father

   2: {

   3:     int iA_;

   4:     int iB_;

5:

   6:     void FuncA();

   7:     void FuncB();

   8: };

9:

  10: class Child : Father

  11: {

  12:     int iC_;

  13:     void FuncC();

  14: };

一个Father对象里只包含 (低地址 –> 高地址) : iA_,iB_。也就是一个Father对象的大小是8个字节，函数并不会占用内存空间。
为什么不会？

其实类的成员函数可以看做本质上与普通函数相同。

编译器在编译的时候就知道函数的位置，所以调用普通函数的时候会直接 call 函数地址(偏移)。也就是被硬编码了，函数的地址是固定的( 不考虑重定位之类的情况 )。

而成员函数的调用也是如此，只是编译器还多做了一件事情，就是判断这个对象有没有调用这个函数的“权限”（函数不是你声明的，当然无权调用），“权限”不够就会报错，告诉那个对象类型没有这个方法。

所以，类对象的大小与这个类的方法数多少是没关系的。成员函数和普通函数本质上一样，实现这个机制，要靠编译器来做工作。

this指针：

成员函数与普通函数不同之处之一就是访问对象的数据。

要访问一个对象的元素，说白了就是要找到这个元素所在的内存位置，也就是要有指针。

我们没有看到传递this指针，因为这件事又是编译器帮我们做了。

反汇编会看到对象调用一个方法的时候，会将这个对象的首部地址赋值给ecx寄存器，通过寄存器来传递this指针。

我们在成员函数里可以不需明写this指针地调用对象元素，还是因为编译器帮我们多做了一步“翻译”。

私有化：

不多说，就是编译器在编译阶段通过源码来判断某个元素是不是能够被访问，某个方法是不是能够被调用，运行的时候并不会有访问限制。看代码：

   1: #include <stdio.h>

2:

   3: class Exp

   4: {

   5:     int iA_;

   6:     int iB_;

7:

   8: public:

   9:     Exp()

  10:     {

  11:         iA_ = iB_ = 0;

  12:     }

  13:     void Out()

  14:     {

  15:         printf("%d \t %d \n",iA_,iB_);

  16:     }

  17: };

18:

  19: int main()

  20: {

  21:     Exp oA;

  22:     void *pC = &oA;

23:

  24:     oA.Out();

  25:     *(int*)pC = 1;

  26:     *(int*)((int)pC+4) = 2;

  27:     oA.Out();

28:

  29:     return 0;

  30: }

结果是： 0 0

1 2

虽然 iA_,iB_是私有的，但是还是被外界修改了。因为编译器无法知道我干了这事(显式的 oA.iA_ = 1 就被发现了哈)

构造与析构：

说道底还是编译器帮我们在多做了一些工作，生成了一些额外代码。

需要注意的是：

   1: void Test( Father oP )

   2: {

   3: }

4:

   5: int main()

   6: {

   7:     Father oA;

   8:     Test(oA);

   9:     return 0;

  10: }

会调用拷贝构造函数。

重载：

一样还是编译器的功劳，C++最后生成的函数名是与参数有关的，所以又不同参数的函数最后生成的函数名不同，看似同名，实则不同。在函数调用的时候，编译器会判断参数的类型，相应的可以生成一个函数名进行“匹配”。( 当然不止这么简单，还会考虑发生类型转换的情况 )

继承：

从内存布局的角度上看

   1: struct Child : Father

和

   1: struct Child

   2: {

   3:     Father o;

   4:     //other

   5: };

相同（虚函数情况后面讨论）。子类的前面部分和父类是一样的。

所以一个接受 Father * 参数的函数可以接受 Child *参数，而且转换是安全的。

有 Father & 类型参数的函数可以接受 Child &,但是继承方式要public。But , why ?

protected和private继承模式，子类继承的父类的接口对外都是隐藏的，所以以一个Father &传入的参数所有的方法元素原则上是不可用的，用了肯定是违反规则的，编译器判定这一点，所以报错。

虚函数：

比较特别的是这个。

Question:为什么需要虚函数？

网上看到的答案：基类可以通过虚函数对子类的相识功能进行管理。（我的C++primer被借走以后就此失踪，所以只能网上找了）。

虚函数具体怎么回事就不细说了，讨论一下背后的机制。

为了能够实现虚函数，每个有虚函数的类有一张对应的虚表。这个虚表储存在只读内存区，记录了对应函数的地址。（PS:一个类就只有一个虚表）

每个类对象都要保存一个虚表指针，保存本类的虚表地址。所以你使用 Father *指针指向一个Child对象，调用的虚函数是Child的。

虚表指针保存在每个对象的首部。

   1: class Child : Father

   2: {

   3:     int iC_;

   4:     void FuncC();

   5:     virtual void VF();

   6: };

现在这个Child对象较前面的多了四个字节。内存布局（从低地址到高地址）是：虚表指针__vfptr,iA_,iB_,iC_。

好。问题来了，Child继承了Father，但是Father的函数并没有为Child再量身定做一次，也就是说无论是Father对象还是Child对象，他们调用FuncA()都是同一个函数。但是Father并没有__vfptr，Child对象在头部多了这个，FuncA()中用this指针定位iA_和iB_不是都不正确吗？

现象告诉我们FuncA()是可以正确访问iA_和iB_，所以推测Child对象在调用FuncA的时候，传的不是真正的首部地址，而是往后偏移了四个字节。

反汇编，确实如此。这么说Father类里不能调用虚函数了？当然，Father都还不知道虚函数这回事，怎么在FuncA中调用。

还有一个有趣的现象：

   1: #include <stdio.h>

2:

   3: class Base

   4: {

   5: public:

   6:     virtual void ShowID()

   7:     {

   8:         printf("Base\n");

   9:     }

  10: };

11:

  12: class CB : public Base

  13: {

  14: public:

  15:     virtual void ShowID()

  16:     {

  17:         printf("CB\n");

  18:     }

  19: };

20:

  21: class CC : public Base

  22: {

  23: public:

  24:     virtual void ShowID()

  25:     {

  26:         printf("CC\n");

  27:     }

  28: };

29:

  30: void Test( CB& oB )

  31: {

  32:     oB.ShowID();

  33: }

34:

  35: int main()

  36: {

  37:     Base oBase;

  38:     CB    oB;

  39:     CC    oC;

40:

  41:     CB* pCB = &oB;

42:

  43:     *(int*)(&oB) = *(int*)(&oC);    //修改虚表指针

  44:     oB.ShowID();

  45:     ((CB*)(&oB))->ShowID();

  46:     pCB->ShowID();

  47:     Test(oB);

48:

  49:     return 0;

  50: }

猜猜结果啊，买定离手。

结果是：CB CB CC CC

在43行的地方，修改了oB的虚表指针，让其指向CC类的虚表。

但是oB.ShowID()没理会我们的修改，还是调用CB类的ShowID。反汇编，发现他没走“获取虚表指针，在虚表中得到相应的函数地址”这一套，直接调用了。因为一般人不会闲着蛋疼去改对象的虚表指针的，对象的类型是明确的，编译器可以通过这些信息确定调用的函数地址，所以没必要走他一套，这样效率还更高。

而pCB->ShowID()就不同了，他很乖地地走了流程，因为一个父类指针可以指向一个子类对象，编译器无法找信息，所以走流程。

那现在纠结了，为神马 ((CB*)(&oB))->ShowID() 输出CB。

反汇编看，发现编译器又擅自做主，没有走指针的流程。

那你猜猜((Base*)(&oB))->ShowID();输出的是什么？CC。

比较二者的差异，可以大概发现一些端倪，什么时候走流程，什么时候不走。

最后是Test(oB)了，前面说过引用的本质是指针，所以这个结果很好理解。

还有，想过

   1: void Test2( Base oP )

   2: {

   3:     oP.ShowID();

   4: }

拷贝的时候有没有拷贝虚表指针吗？试试就知道，厄…发现没有。

前面说过这样会调用拷贝构造函数，但是你在这个函数你没有写虚表指针的赋值。但是邪恶的编译器已经帮你悄悄加上去了哈哈哈哈~。(唉?节操呢)

RTTI

每个类有特定的虚表地址，每个对象会保存这个虚表地址，应该想到了吧，偷懒，不写了。

综上。可以看到，面向对象机制在底层并不特别，机制的实现主要靠的是编译器。

posted @ 2013-02-03 20:25 南树阅读(2321) 评论(8) 编辑收藏举报

刷新页面返回顶部