代码改变世界

【编写高质量代码:改善C++程序的150个建议 之 7】 时刻提防内存溢出

2012-01-16 17:50  凌云健笔  阅读(1621)  评论(4编辑  收藏  举报

作为一个程序员,对于内存溢出问题你肯定不陌生,它已经是软件开发历史上存在了近40年的大难题。在内存空间中,当要表示的数据超出了计算机为该数据分配的空间范围时,就产生了溢出,就像在一个三升大的斗中装进五升的米,而溢出的多余数据就可以作为指令在计算机上大摇大摆地运行。不幸的是,这一不小心成了黑客们可利用的秘密后门,“红色代码”病毒事件就是黑客利用内存溢出攻击企业网络的“经典案例”。更有甚者言,操作系统中超过50%的安全漏洞都是由内存溢出引起的。

众所周知,C/C++语言虽然是一种高级语言,但是其程序的目标代码却非常接近机器内核,能够直接访问内存和寄存器,这种特性大大提升了C/C++语言代码的性能,同时也提高了内存溢出问题的可能性。内存溢出问题可以说是C/C++语言所固有的缺陷,因为它们既不检查数组边界,又不检查类型可靠性。

假设代码申请了X字节大小的内存缓冲区,随后又向其中复制超过X字节的数据。那么多出来的“米”会跑出原本的分配区;最重要的是,C/C++编译器开辟的内存缓冲区常常邻近重要的数据结构。如果恶意攻击者用“别有用心”的东西刻意地覆盖你原本安全可信的数据,那么后果就是你的机器将会成为它们肆意攻击的“肉鸡”。下面将介绍常见的缓冲区溢出,以及预防措施。

C语言中的字符串库没有相应的安全保护,所以在使用时要特别小心。例如,strcpy、strcat等函数操作时没有检查缓冲区大小,容易引起安全问题。

现在分析下面的代码片段:

const int MAX_DATA_LENGTH = 32; 
void DataCopy (char *szSrcData)
{
char szDestData[MAX_DATA_LENGTH];
strcpy(cDest,szData);
// processing code ...
}

似乎这段代码不存在什么问题,但是细心的读者还是会发其中的危险。如果数据源szSrcData长度不超过规定的长度,那么这段代码确实没什么问题。strcpy()不会在乎数据来源,也不会检查字符串长度,唯一能让它停下来的只有字符串结束符'\0'。不过,如果没有遇到这个结束符,它就会一个字节一个字节地复制szSrcData的内容,在填满32字节的预设空间后,溢出的字符就会取代缓冲区后面的数据。如果这些溢出的数据恰恰覆盖了后面DataCopy函数的返回地址,在该函数调用完毕,程序就会转入攻击者设定的“返回地址”,从而乖乖地进入预先设定好的陷阱。
为了避免落入这样的圈套,给作恶者留下可乘之机,当C/C++代码处理来自用户的数据时,你应该处处留意。如果一个函数的数据来源不可靠,又用到内存缓冲区,那么你必须提高警惕,必须知道内存缓冲区的总长度,并检验内存缓冲区。

const int MAX_DATA_LENGTH = 32; 
void DataCopy (char *szSrcData, DWORD nDataLen)
{
char szDestData[MAX_DATA_LENGTH];
if(nDataLen < MAX_DATA_LENGTH)
strcpy(cDest,szData);
szDestData[nDataLen] = ‗\0‘; // 0x42;
// processing code ...
}

首先,我们要获得szSrcData的长度,保证数据长度不大于最大缓冲区长度MAX_DATA_LENGTH;其次,我们要保证参数传来的数据长度真实有效;其方法就是向内存缓冲区的末尾写入数据。因为,当缓冲区溢出时,一旦向其中写入常量值,代码就会出错,终止运行。与其落入阴谋家的陷阱,还不如及时终止程序运行。

虽然上述方法能够有效地减小内存溢出问题的危害,却不能从根本上避免对内存溢出的攻击。所以在调用 strcpy、strcat、gets 等经典函数时,你要从源代码开始就提高警惕,尽量追踪传入数据的流向,向代码中的每一个假设提出质疑。包括对那些所谓相对安全可靠的改良版N-Versions(strncpy 或 strncat)也不可轻信。

访问边界数据同样可能引起缓冲区溢出的问题。在这种情况下的内存溢出不会像第一种那么危险,但同样令人讨厌。就如下面的代码片段:

const int DATA_LENGTH = 16; 
Int data[16] = {1,9,8,4,0,9,1,7,1,9,8,7,0,3,0,9};
void PrintData()
{
for(int i=0; a[i] != 0 && i < DATA_LENGTH; i++)
{
cout<<data[i])<<endl;
}
}

这也是一个隐藏很深,难以被发现的问题:当i==16的时候,在判断i< DATA_LENGTH的同时需要判断data[16]。而data[16]已经访问到了非法区域,可能引起缓冲区溢出问题。正确的方式应该是不要将索引号i与数据本身data[i]的判断放在一起,而是将判断条件分成两句:

const int DATA_LENGTH = 16; 
Int data[16] = {1,9,8,4,0,9,1,7,1,9,8,7,0,3,0,9};
void PrintData()
{
for(int i=0;i<DATA_LENGTH;i++)
{
if(a[i]!=0) cout<<data[i])<<endl;
}
}

类似的问题还有可能发生在访问未初始化指针或失效指针时。未初始化的指针和失效后未置NULL的指针指向的是未知的内存空间,所以对这样的指针进行操作很有可能访问或改写未知的内存区域,所以也可能引起缓冲区溢出的问题。

请记住:

因为内存溢出潜在的危害重大,所以它是我们必须注意和面对的一个问题,特别是在网络相关应用程序中;在调用C语言字符串经典函数(如strcpy、strcat、gets 等)时,你要从源代码开始就提高警惕,尽量追踪传入数据的流向,向代码中的每一个假设提出质疑。数据访问时,注意对于边界数据要特殊情况特殊处理;还要对杜绝使用未初始化指针和失效后未置NULL的野指针。

 

作者: 凌云健笔

出处:http://www.cnblogs.com/lijian2010/

版权:本文版权归作者和博客园共有
转载:欢迎转载,为了保存作者的创作热情,请按要求【转载】
要求:未经作者同意,必须保留此段声明;必须在文章中给出原文连接;否则必究法律责任