Linux实践:ELF文件格式分析
标签(空格分隔): 20135321余佳源
一、基础知识
ELF全称Executable and Linkable Format,可执行连接格式,ELF格式的文件用于存储Linux程序。ELF文件(目标文件)格式主要三种:
- 可重定向文件:文件保存着代码和适当的数据,用来和其他的目标文件一起来创建一个可执行文件或者是一个共享目标文件。(目标文件或者静态库文件,即linux通常后缀为.a和.o的文件)
- 可执行文件:文件保存着一个用来执行的程序。(例如bash,gcc等)
- 共享目标文件:共享库。文件保存着代码和合适的数据,用来被下连接编辑器和动态链接器链接。(linux下后缀为.so的文件。)
一般的 ELF 文件包括三个索引表:
- ELF header ELF头,在文件的开始,保存了路线图,描述了该文件的组织情况。
- Program header table 程序头表,告诉系统如何创建进程映像。用来构造进程映像的目标文件必须具有程序头部表,可重定位文件不需要这个表。
- Section header table 段节头表,包含了描述文件节区的信息,每个节区在表中都有一项,每一项给出诸如节区名称、节区大小这类信息。用于链接的目标文件必须包含节区头部表,其他目标文件可以有,也可以没有这个表。
二、ELF文件头(ELF header)的分析
进入终端输入:cd /usr/include
进入include文件夹后查看elf.h文件,查看ELF的文件头包含整个文件的控制结构,这里看到的是32位系统的elf.h
-
e_ident
这个最初的字段标示了该文件为一个可执行的object文件,提供了一个机器无关的数据,解释文件的内容。 -
e_type
确定了object的类型 -
e_version
确定object的文件版本 -
e_entry
是系统第一个传输控制 的虚拟地址,在那启动进程,假如文件没有如何关联的入口点,该值为0 -
e_phoff
program header offset, 保持了程序头表在文件中的偏移量(bytes),假如没有程序头表的话,该值为0 -
e_shoff
section header offset,保持着段节头表在文件中的偏移量(bytes),如果没有段节头表的话,该值为0 -
e_flags
保存着相关文件的处理器标志 -
e_ehsize
elf header size,保存着ELF头大小(bytes) -
e_phentsize
program header entry size,保存着在文件的程序头表中一个入口的大小(bytes),所有入口大小都一样。 -
e_phnum
program header number,保存着程序头表的个数,也就是说和e_phentsize的乘积就是表的大小(bytes),如果没有程序头表, -
e_shentsize
section header entry size,section段节头大小(bytes),一个段节 头在段节头表中的一个入口,所有入口同样大小 -
e_shnum
section header number,保存着在段节头表中的入口数目,与e_shentsize乘积是section头表的大小,如果没有section头表,该值为0 -
e_shstrndx
section header string index,保存跟段节section名字字符表相关入口的section头表索引,假如没有section名字字符表,该值就会变成SHN_UNDEF,section header null,undefine
接下来对fish的elf文件头进行分析
又图可以看出elf头大小为52bytes,接下来可以使用hexdump -x fish -n 52
来查看fish文件头的前52bytes并分析其格式
第一行,本系统是小端法显示,对应e_ident前四个字节457f464c,就是7f454c46,就是7f elfd对应的ASCII码,接下来一个01就是表示32位机器,接下来一个01,就是小端法的表示,再接着一个01,表示文件头版本,剩下默认设置为0。
第二行,e_type值为0x0002,表示这是一个可执行文件,e_machine值为0x0003,表示是intel80386的处理器体系结构,e_version值为0x00000001,表示当前版本,e_entry为0x08048370,表示其入口地址,e_phoff值为0x00000034,表示该程序头为52bytes
第三行,e_shoff值为0x00001158,表示的是段表的偏移地址为4440bytes,e_flags为0x00000000,表示未定的处理器标志,e_ehsize值为0x0034,表示了elf头的大小是52bytes,e_phentsize,值为0x0020表示了其中一个程序头表的入口大小是32bytes,e_phnum值是0x0009,表示程序头表的入口数为9个,e_ehentsize值为0x0028,表示了该段节的头大小为40bytes。
第四行,e_shnum值为0x001e,表示了段表入口有30个,e_shstrndx值为0x001b,表示了该段在段名字字符表中索引号是27号
三、通过文件头找到section header table,理解其内容
输入readelf -S fish
查看fish的section header table内容
- [Nr]表示对应的section索引值
- Name,名称
- Type,section的类型
- Addr,起始地址
- Off,section偏移地址
- size,section大小
输入readelf -s fish
查看fish的符号表
四、通过section header table找到各section
在一个ELF文件中有一个section header table,通过它我们可以定位到所有的 section,而 ELF header 中的e_shoff 变量就是保存 section header table 入口对文件头的偏移量。而每个 section 都会对应一个 section header ,所以只要在 section header table 中找到每个 section header,就可以通过 section header 找到你想要的 section。
下面以可执行文件fish为例,以保存代码段的 section 为例来讲解读取某个section 的过程。
由上面的图可以看出32位系统的section header结构体
看到e_shoff值0x00001158可以知道段表地址偏移为0x1158,e_shnum值为0x001e可知段表入口30个,即从0x1158开始有30个段占了40bytes
接下来开始输入hexdump fish
查看全部的16进制信息,并找到第一段开始读取
不过这里第一段全为0。
接下来是第二段
可以对应section header table看看发现是符合的,第二段是.interp段,起始地址0x08048154,偏移量是0x000154,大小是13
接着是第三段
是.note.ABI-tag段,起始地址是0x08048168,偏移量是0x000168,大小是20
同理可以看其他的段
比如说.text段,即可执行指令的集合,起始地址是0x08048370,偏移地址370,大小是1e2,换算十进制后再使用hexdump -s 880 -n 472 -C fish
查看对应的数据
这时可以使用readelf -x 13 fish
查看.text段的数据:
两者对比发现数据一致,说明通过section header table 成功找到了.text数据节,然后使用objdump -d fish
找到.text段的数据并和section header table与readelf两者找到的一样
五、理解常见的.text .strtab .symtab .rodata等section
-
.text
代码段,存储二进制的机器指令,这些指令可以被机器直接执行 -
.rodata
read only data,只读数据段,存储程序中所使用的复杂常量,比如字符串。 -
.data
数据段,存储程序中已经被明确初始化的全局数据,包括C语言的全局变量和静态变量,如果全局数据被初始化为0,则不存储在数据段中,而是存储在块数据段中,C语言局部数据存储在栈中,不出现在数据段中。 -
.bss
块数据段,存储未被明确初始化的全局变量,在目标文件中,这个段并不占有空间,而仅仅是一个占位符,以告知指定位置上应当预留全局数据的空间,块缓存段存在的原因是为了提高磁盘的空间利用率 -
.symtab
一个符号表,存放在程序中被定义和引用的函数和全局变量的信息,但是不包括局部变量的表目 -
.strtab
string table,字符串表,其内容包括了.symtab和.debug节中的符号表,以及节头部中的节名称,字符串表就是以null结尾的字符串序列