第11章:PE 文件格式(补充)

对《逆向工程核心原理》 PE 相关的拓展知识。

Windows 系列:

Windows 1.0 ,Windows 2.0 ,Windows 3.0 ,Windows 3.1 ,Windows  95 , Windows 98 ,Windows 98 SE , Windows ME , Windows  NT  , Windows 2000 , Windows  XP , Windows  Vista , Windows  7

 

Win 16 平台,比如 Windows 3.x ,可执行文件格式是 NE 。

PE 文件(Windows 95 以后)衍生于 COFF 文件格式(也是一种跨平台的通用格式),这使得文件格式统一,exe 和 dll 文件的格式唯一的区别就是用一个字段标识出这个文件是 DLL 还是 Exe。OCX 控件和控制面板程序(.CPL文件)都是  DLL ,拥有一样的实体。

 

PE 载入内存后,映射文件的起始地址称为模块句柄(hModule),也称为基地址(ImageBase),Windows CE 除外。并不是所有的数据都会映射,不能映射的数据放在文件的尾部。

Instance Handle: NT、95 将基地址称为 Hinstance(实例句柄),每个执行实例都有自己的数据段并以此相互区分;32 位 Windows 后每个应用程序都拥有一个虚拟地址空间,不再需要区分,也不再需要使用这个名字了。

 

虚拟内存,物理内存

页表(Page Table)在当中扮演了地址转换的角色,系统为每一个进程维护了一份独立的页表。虚拟内存本身是逻辑意义上的,一个程序若占有4GB的虚拟内存,并非4GB全部映射到物理内存上,而是存有程序数据的地方才会映射到物理内存上。

A4/B3 (共享内存)如共享动态库一样,被加载到物理内存中,程序使用时直接将其映射到虚拟内存空间。驻留内存是指位于物理内存中的内存块。

 

DOS 头

e_lfarlc 是指 relocation,指向 Dos Stub 代码起始处,e_ip,e_cs 都是 0

 

FileHeader 文件头

PointerToSymbolTable: COFF 符号表的文件偏移位置。

NumberOfSymbols: 如果有 COFF 符号表,它代表其中的符号数目。现在采用新的 debug 格式,因此上述两个域一般都为 0

SizeOfOptionalHeader :指定大小,32位通常是 0E0h,64 位通常是 0F0h,但这只是要求的最小值。

 

OptionalHeader 可选头

64位与32位的差别就在这个结构中,其中只有几个域长度变长了:SizeOfStackReserve, ImageBase, SizeOfStackCommit, SizeOfHeapReserve, SizeOfHeapCommit 都变为了 ULONG,8字节。

SizeOfCode:有 IMAGE_SCN_CNT_CODE 属性的区块的总大小(只入不舍),这个值是向上对齐某一个值的整数倍。例如,本例是200h,即对齐的是一个磁盘扇区字节数(200h)的整数倍。在通常情况下,多数文件只有1个 Code 块,所以这个字段和 .text 块的大小匹配。

SizeOfInitializedData:已初始化数据块的大小,即在编译时所构成的块的大小(不包括代码段)。但这个数据不太准确。而未初始化数据放在 .bss 块中。

BaseOfCode:代码段的起始RVA。在内存中,代码段通常在PE文件头之后,数据块之前。在Microsoft链接器生成的可执行文件中,RVA的值通常是 1000h。Borland 的 Tlink32 用ImageBase 加第1个 Code Section 的 RVA,并将结果存入该字段。

AddressOfEntryPoint:程序执行入口 RVA。对于 DLL,这个入口点在进程初始化和关闭时及线程创建和毁灭时被调用。在大多数可执行文件中,这个地址不直接指向 Main、WinMain 或 DlIMain 函数,而指向运行时的库代码(ntdll_RtlUserThreadStart )并由它来调用上述函数。在 DLL 中,这个域能被设置为0,此时前面提到的通知消息都无法收到。链接器的 /NOENTRY 开关可以设置这个域为0。

ImageBase:文件在内存中的首选载入地址。如果有可能(也就是说,如果目前没有其他文件占据这块地址,它就是正确对齐的并且是一个合法的地址),加载器会试图在这个地址载入PE 文件。如果 PE 文件是在这个地址载入的,那么加载器将跳过应用基址重定位的步骤。

SectionAlignment:如果它小于 CPU 页尺寸,则必须与 FileAlignment 对齐。

后面的 major 和 minor 指主要的和次要的的意思

CheckSum:映像的校验和。IMACEHLP.DLL 中的CheckSumMappedFile函数可以计算该值。一般的EXE 文件该值可以是0,但一些内核模式的驱动程序和系统DLL必须有一个校验和。当链接器的/RELEASE开关被使用时,校验和被置于文件中。

Subsystem:一个标明可执行文件所期望的子系统(用户界面类型)的枚举值。这个值只对EXE 重要。

LoaderFlags:与调试有关

 

区块表

Name:前面的 . 不是必须的,名字长度超过8字节,没有终止标志的 NULL 字符。前面带有“$”字符的同名区块会被合并。这些区块是按“$”后面的字符的字母顺序合并的。

VirtualSize、VirtualAddress:在 obj 文件中该字段设置为 0

NumberOfRelocations:在 EXE 中无意义,在 obj 文件中有意义。

Characteristics:(可丢弃应该是指不载入内存)

 

常见区块与区块合并

 

可以通过声明,将数据插入自定义的区块,而不是默认的区块。

链接器的工作是合并所有 OBJ 和库中所有的块,使其最终成为一个合适的区块。OBJ 文件中还可以存在一个放置链接信息的区块,链接完即删除掉。

区块合并没有什么硬性规定,把 .rdata 合并到 .text 不会有什么问题。但不应将 .rsrc、.reloc 或 .pdata合并到其他区块里。

 

输入表

 逆向工程核心原理那里写的思路实在是有点混乱,这里稍作整理。

 程序在编译时即预留 IAT 位置,运行时 Windows 加载器将输入函数的地址写入。下面有两种调用函数的方式:

① Call  00401164

:00401164

Jmp  dword  ptr  ds:[00402010]

② Call  DWORD PTR  [00402010]

因为编译器无法确定函数调用的地址,后面会由链接器填充实际的地址。因为编译器不能区分到底是DLL库中的输入函数还是程序中自定义的函数,默认情况下,会使用如 ① 中的 Call 方式(这种方式是自定义函数的 Call 方式);当链接器找到该函数来自于另一个 DLL,而输入函数的一般调用方式是通过间接调用即方式 ②(间接调用的好处在于:不需要修改原始代码,程序加载时是直接将地址写入 IAT 的),因此会单独拿出一块地址,专门用作 JMP stub 。

PE程序的代码

在输出函数前面加上修饰符 “__declspec(dllimport)” 可以告诉编译器这个函数来自另一个 DLL,编译器就会给函数加上 “__imp_ ” 前缀,使用方式 ② 调用函数。此时,在编译阶段就能定位到要使用的函数(猜测该修饰符实现了符号共享,函数名可以被程序看到),并在 IAT 表中留出一个位置给该函数,否则会在链接阶段找匹配的函数 。系统文件中的很多导出 API 都是这样加了修饰符的。

 

输入表结构

ForwarderChain:第一个被转向的 API 的索引。程序中引用的 DLL 的 API 引用了另一个 DLL 的 API 时使用。

INT、IAT(对前面混乱表述的整理)

1#. 之前查看的程序是 Win xp sp3 中的 notepad.exe。在 IAT 中看到的都是硬编码后的地址,与 Windows 装载器装载之后的地址值相同,因为这个程序是绑定输入的。

现在重新来看看由书作者自行编写的程序。得到 User32.dll 的 INT 和 IAT 的文件偏移分别是 68c,610 

INT

IAT

 

可以看到 INT 和 IAT 中存储的值都是一样的。注意该大小变为了 64 bits 。

 

这两个结构同属于一个结构体:IMAGE_THUNK_DATA,实际在内存/文件中的大小只占 DWord 。

未载入时,该双字的最高为1时,低位全部用来表示 Ordinal。最高位为 0 时,是一个指向 IMAGE_IMPORT_BY_NAME 的 RVA 地址。载入后,意义就不大了,只用 IAT (即使用 Function 域)就可以正常运行了。

Hint:若有值,则被用来在 DLL 的输出表里快速查询函数,非必需。

Name:大小可变,ASCII 字符串,以 NULL 结尾

 

绑定输入表(32/64 结构体大小无变化)

因为程序载入时会检查输入表并将相关 DLL 映射到进程地址空间,用真实的函数地址逐个替换 IAT 。如果程序早就放好了地址,那么 PE 装载器就不需要替换地址。Visual Studio 中的 Bind.exe 可以实现绑定功能。

当下面任意一种情况发生时,IAT 中所有的地址都被判定无效。

1#.进程初始化时,DLL 加载到了它们的首先基地址中。

2#.自从绑定操作执行以来,DLL 输出表中引用的符号位置一直没有改变。

若 IAT 无效,则通过 INT 来加载。若没有 INT 则可执行文件不能被绑定(MicroSoft 链接器)。Borland 链接器生成的文件不能被绑定。当程序安装时,Windows 安装器的 BindImage 会执行绑定操作。

DataDirectory 的第 12 个成员 IMAGE_BOUND_IMPORT_DESCRIPTOR :

TimeDateStamp:一个双字,包含一个被输入 DLL 的时间/日期戳。它允许加载器快速判断绑定是否是新的。
OffsetModuleName:一个字,包含一个指向被输入 DLL 的名称的偏移。这个字段是与第1个 IBID 结构之间的偏移(不是 RVA ).
NumberOfModuleForwarderRefs:一个字,包含紧跟该结构的 IMAGE_BOUND_FORWARDER_REF 结构的数目。除了最后一个字(NumberOfModuleForwarderRefs)被保留外,其结构和 IBID 相同。

当绑定的一个 API 被转向另一个 DLL 时,转向的 DLL 的有效性也要被检查。这样,IMAGE_BOUND_FORWARDER_REF 和 IMAGE_BOUND_IMPORT_DESCRIPTOR 结构就是交叉存取的了。例如,链接到HeapAlloc,它被转向 NTDLL 中的 RtlAllocateHeap,然后对可执行文件运行 BIND。在 EXE 里,已经有一个针对 KERNEL32.DLL 的 IBID,它的后面跟着一个针对 NTDLLDLL 的 IMAGE_BOUND_FORWARDER_REF。跟在后面的可能是另外绑定的针对其他 DLL 的 IBID。当然,若 NumberOfModuleForwarderRefs 为 0,则不会后面不会跟着 IMAGE_BOUND_FORWARDER_REF 。

 

基址重定位表(32/64 结构体大小无变化)

在文件中找到重定位结构体中的相关数据,该数据就是 PE 文件映射在要求的 ImageBase 上时正确的数据。发生重定位时,将其修改为 该数据值-ImageBase+实际映射的地址。

 

资源表

比较复杂。资源修改工具:Resource Hacker 和 eXeScope 等。https://www.cnblogs.com/qintangtao/archive/2013/01/11/2857193.html

 

TLS 表

使用线程本地存储器(TLS)可以将数据与执行的特定线程联系起来。当使用 _declspec(thread) 声明的 TLS 变量时,编译器将它们放入一个 .tls 区块。当应用程序加载到内存中时,系统要寻找可执行文件中的 .tls区块,并且动态地分配一个足够大的内存块,以便存放所有的 TLS 变量。系统也将一个指向已分配的内存的指针放到 TLS 数组里,这个数组由 FS:[2Ch] 指向(在 x86 架构上)。

TLS 结构体第一个和第二个元素指向 .TLS 块。IMAGE_TLS_DIRECTORY 本身不在 .tls 区块中,而在 .rdata 区块中。

 

调试目录表

debug 数据多半指向外部 PDB 文件的路径。在 Visual Studio 6.0中,debug,头部以 NB10 标识开始。在 VisualStudio .NET中,debug 头部以 RSDS 开始。

 

延迟载入表

延迟载入不是操作系统的特征,它完全通过向链接器和运行库加入额外的代码和数据来实现。数据目录表中的 IMAGE_DIRECTORY_ENTRY_DELAY_IMPORT 条目指向延迟载入的数据,这是一个指向 ImgDelayDescr 结构数组的 RVA。

第一个字段被设为1,则成员视为 RVA 。

 

程序异常表

当一个异常发生时,系统通过遍历这个表来定位合适的人口并处理它。异常表是一个 IMACE_RUNTIME_FUNCTION_ENTRY 结构数组,数组是由数据目录表中的IMAGE_DIRECTORY_ENTRY_EXCEPTION 条目指向的。IMAGE_RUNTIME_FUNCTION_ENTRY 结构的格式随体系结构的不同而不同。对 IA-64,其布局示例如下。

 

 

.NET 头

.NET 文件是 Microsoft .NET 环境生成的可执行文件。.NET 环境由公共语言运行环境(CLR)和 .NET 框架类库组成。可以把CLR看成一台虚拟机,.NET 应用程序就在这台机器中运行。.NET 可执行文件的主要目的是获得 .NET 特定的载入内存的信息。例如元数据(Metadata)和中间语言( Intermediate Language,IL)。 .NET 可执行文件依靠MSCOREE.DLL 进行链接,这个 DLL 对一个 .NET 进程而言是起始点。当一个 .NET 可执行文件被载入时,它的入口通常是一小块残余代码,这块代码只是跳到 MSCOREE.DLL 中的一个输出函数(_CorExeMain或_CorDlIMain)而已。从那里开始, MSCOREE 接管并使用来自可执行文件的元数据和中间语言。这种运行方式类似于 Visual Basic 程序使用MSVBVM60.DLL 的方式。.NET 环境下的 PE 文件,在整体结构上与传统 PE 文件一致。不同的是,.NET 环境下的 PE 文件利用数据目录表中的 IMACE_DIRECTORY_ENTRY_COM_DESCRIPTOR 条目扩充了其结构。这个条目原本是用于 COM 的,但一直没有被使用,现在用于保存 .NET 的信息结构,指向 IMAGE_COR20_HEADER。第 24 章有详细的介绍。

 

posted @ 2020-12-24 20:08  Rev_omi  阅读(478)  评论(0编辑  收藏  举报