缓冲区,简单说来是一块连续的电脑内存区域, 能够保存相同数据类型的多个实例。动态变量在程式运行时定位于堆栈之中。 我们这里只关心动态缓冲区的溢出问题, 即基于堆栈的缓冲区溢出。
进程的内存组织形式
一个进程在内存中被分成三个区域: 文本, 数据和堆栈。
文本区域是由程式确定的, 包括代码(指令)和只读数据。 该区域相当于可执行文档的文本段。 这个区域通常被标记为只读, 任何对其写入的操作都会导致段错误(segmentation violation)。
数据区域包含了已初始化和未初始化的数据。 静态变量储存在这个区域中。

/------------------/ 内存低地址
| |
| 文本 |
| |
|------------------|
| (已初始化) |
| 数据 |
| (未初始化) |
|------------------|
| |
| 堆栈 |
| |
/------------------/ 内存高地址

堆栈是个后进先处(LIFO)队列。

为什么要使用堆栈?
一个过程调用能够象跳转(jump)命令那样改变程式的控制流程, 但是和跳转不同的是, 当工作完成时,函数把控制权返回给调用之后的语句或指令。 这种高级抽象实现起来要靠堆栈的帮助。
堆栈也用于给函数中使用的局部变量动态分配空间, 同样给函数传递参数和函数返回值也要用到堆栈。

堆栈区详解
堆栈是一块保存数据的连续内存。 一个名为堆栈指针(SP)的寄存器指向堆栈的顶部。堆栈的底部在一个固定的地址。 堆栈的大小在运行时由内核动态地调整。

堆栈由逻辑堆栈帧组成。当调用函数时逻辑堆栈帧被压入栈中, 当函数返回时逻辑堆栈帧被从栈中弹出。 堆栈帧包括函数的参数, 函数地局部变量, 连同恢复前一个堆栈帧所需要的数据, 其中包括在函数调用时指令指针(IP)的值。

堆栈既能够向下增长(向内存低地址)也能够向上增长, 这依赖于具体的实现。在我们的例子中, 堆栈是向下增长的。堆栈指针(SP)也是依赖于具体实现的。他能够指向堆栈的最后地址,或指向堆栈之后的下一个空闲可用地址。 在我们的讨论当中, SP指向堆栈的最后地址。

除了堆栈指针(SP指向堆栈顶部的的低地址)之外, 为了使用方便更有指向帧内固定地址的指针叫做帧指针(FP)。有些文章把他叫做局部基指针(LB-local base pointer)。从理论上来说, 局部变量能够用SP加偏移量来引用。 然而, 当有字被压栈和出栈后, 这些偏移量就变了。 尽管在某些情况下编译器能够跟踪栈中的字操作, 由此能够修正偏移量, 但是在某些情况下不能。而且在任何情况下, 要引入可观的管理开销。 而且在有些机器上, 比如Intel处理器, 由SP加偏移量访问一个变量需要多条指令才能实现。

因此, 许多编译器使用第二个寄存器, FP, 对于局部变量和函数参数都能够引用, 因为他们到FP的距离不会受到PUSH和POP操作的影响。 在Intel CPU中, BP(EBP)用于这个目的。 在Motorola CPU中, 除了A7(堆栈指针SP)之外的任何地址寄存器都能够做FP。考虑到我们堆栈的增长方向, 从FP的位置开始计算, 函数参数的偏移量是正值, 而局部变量的偏移量是负值。

当一个例程被调用时所必须做的第一件事是保存前一个FP(这样当例程退出时就能够恢复)。 然后他把SP复制到FP, 创建新的FP, 把SP向前移动为局部变量保留空间。 这称为例程的序幕(prolog)工作。当例程退出时, 堆栈必须被清除干净, 这称为例程的收尾(epilog)工作。 Intel的ENTER和LEAVE指令, Motorola的LINK和UNLINK指令, 都能够用于有效地序幕和收尾工作。
这里利用了一个简单的例子来做堆栈溢出示例。首先描述了该例子编
译后的内存分配情况,然后修改这个例子,使他成为一个典型的溢出程
序。分析溢出时的堆栈情况。

------------------------------------------------------------------

一个简单的堆栈例子
example1.c:
------------------------------------------------------------------
void function(int a, int b, int c) {
char buffer1[5];
char buffer2[10];
}

void main() {
function(1,2,3);
}
------------------------------------------------------------------
使用gcc的-S选项编译, 以产生汇编代码输出:
$ gcc -S -o example1.s example1.c

通过查看汇编语言输出, 我们看到对function()的调用被翻译成:
pushl $3
pushl $2
pushl $1
call function

以从后往前的顺序将function的三个参数压入栈中, 然后调用function()。 指令call会把指令指针(IP)也压入栈中。 我们把这被保存的IP称为返回地址(RET)。 在函数中所做的第一件事情是例程的序幕工作:
pushl ëp
movl %esp,ëp
subl $20,%esp

将帧指针EBP压入栈中。 然后把当前的SP复制到EBP, 使其成为新的帧指针。 我们把这个被保存的FP叫做SFP。 接下来将SP的值减小, 为局部变量保留空间。

内存只能以字为单位寻址。 一个字是4个字节, 32位。 因此5字节的缓冲区会占用8个字节(2个字)的内存空间, 而10个字节的缓冲区会占用12个字节(3个字)的内存空间。 这就是为什么SP要减掉20的原因。 这样我们就能够想象function()被调用时堆栈的模样(每个空格代表一个字节):
内存低地址 内存高地址
buffer2 buffer1 sfp ret a b c
<------ [ ][ ][ ][ ][ ][ ][ ]
堆栈顶部 堆栈底部

制造缓冲区溢出
现在试着修改我们第一个例子, 让他能够覆盖返回地址, 而且使他能够执行任意代码。堆栈中在buffer1[]之前的是SFP, SFP之前是返回地址。 ret从buffer1[]的结尾算起是4个字节。应该记住的是buffer1[]实际上是2个字即8个字节长。 因此返回地址从buffer1[]的开头算起是12个字节。 我们会使用这种方法修改返回地址, 跳过函数调用后面的赋值语句'x=1;', 为了做到这一点我们把返回地址加上8个字节。 代码看起来是这样的:
example3。c:
--------------------------------------------------------------------
void function(int a, int b, int c) {
char buffer1[5];
char buffer2[10];
int *ret;

ret = buffer1 12;
(*ret) = 8;
}

void main() {
int x;

x = 0;
function(1,2,3);
x = 1;
printf("%d/n",x);
}
-------------------------------------------------------------------

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!