freeldr引导的最初阶段

分析环境reactos0.3.1 ,i386体系]

 freeldr多系统引导程序

 freeldr是一个多操作系统的引导程序,在reactos中是如何工作的?

一开始当然是MBR(主引导记录,位于磁盘0柱面、0磁头、1扇区),freeldr也有自己的MBR,在安装的时候会安装到指定硬盘的MBR处。BIOS将MBR读取放到内存的0000:7C00处,然后BIOS释放控制权计算机转入这个地址执行MBR,MBR 首先将自己从这个地址处移走,因为接下来的引导扇区代码也要放在这里,会覆盖这个部分。MBR功能基本上都是识别活动分区,然后读取活动分区的引导扇区到内存0000:7C00处。

引导扇区位于某个分区的第一个扇区,512个字节,(当然引导扇区的这512个字节信息中的最后还必须有引导签名,否则MBR会报告错误并终止),MBR将它读取到内存的0000:7C00处,然后MBR释放控制,计算机转入这里开始执行。

那么针对不同的分区,(FAT12/16/32还有其他分区)给出了不同的引导扇区程序(这些程序位于srcroot\boot\freeldr\bootsect\),当然先看看FAT32的。因为这个比较单纯,(好像FAT12/FAT16,要分成几个部分来加载freeldr.sys这个引导文件。)一次性读取 freeldr.sys这个引导文件到内存。

如果是FAT32引导扇区的程序,会在分区上查找 freeldr.sys并将他加载到0000:7E00 这个地址,然后跳到0000:8000地址开始执行freeldr的汇编代码。(那为什么不是跳到0000:7E00 地址呢?下面再分析)

freeldr.sys的文件结构是前512个字节是fathelp.asm这个文件在srcroot\boot\freeldr\freeldr\arch\i386文件夹中,作用是帮助FAT12/16分区程序完成加载freeldr.sys的后续工作,那作为FAT32的工作流程来说就不需要这段代码,而紧挨作这512字节之后的是arch.S文件在srcroot\boot\freeldr\freeldr\arch\i386\,然后还有很多文件跟在后面,不过主要关心这两个文件在freeldr.sys中的布局。

完成freeldr.sys文件的加载后跳过来到0000:8000这个地址处开始执行,应该就是RealEntryPoint这个函数(不知道这里因该叫它函数呢还是叫标签暂时先叫它函数吧,因为后面没有冒号)。(具体为什么是这个函数?莫非因为这是文件中的第一个函数,然后文件布局经过编译器编译后又紧靠作那512个字节即0000:7E00 + 512 = 0000:8000 还是有其他原因?)。

然后这个函数RealEntryPoint完成以下工作

  1. 关闭中断
  2. 把 ax、ds、es、fs、gs、ss寄存器清零
  3. 建立16位实模式下堆栈,栈底(栈顶)为0000:7000
  4. 开中断
  5. 切换成保护模式
  6. 把eax、_i386BootDrive和_i386BootPartition清零 (这两个全局变量在freeldr的其它文件中会使用)
  7. 保存引导驱动信息到_i386BootDrive
  8. 保存引导分区信息到_i386BootPartition
  9. 将_BootMain的cmdline参数压栈(不过这个参数为什么是NULL呢,莫非i386体系的不需要还是为以后扩展用。)
  10. 然后调用_BootMain

这个BootMain函数位于srcroot\reactos-0.3.1\boot\freeldr\freeldr\Freeldr.c文件,终于可以使用C语言了

后面还有几条其他指令,也许已经无关紧要(无关紧要那还写它干什么?^O^ 当然有他的道理,只是现在我不需要了解)

 进入了BootMain函数那就想干什就干什么。

不过在查看makefile.auto时发现srcroot\boot\freeldr\freeldr\arch\i386\arch.s不是用nasm来编译的。而是gcc编译的(难怪在读源代码时觉得不是nasm风格),也就是说这个文件采用的是gcc的汇编语法格式,下面是来自网络的一篇关于gcc使用的内嵌汇编语法格式小教程》这篇教程的版权保留给原作者

==================================================================================

 gcc使用的内嵌汇编语法格式小教程  

作者:技术天地   来源:CCW
 
本文对内嵌汇编语法,从基本语法、内嵌汇编的格式介绍、和扩展的内嵌汇编格式进行了详细说明,需要说明的是gcc采用的是AT&T的汇编格式.

一 基本语法

语法上主要有以下几个不同.

★ 寄存器命名原则

AT&T: %eax intel: eax

★源/目的操作数顺序

AT&T: movl %eax,%ebx intel: mov ebx,eax

★常数/立即数的格式

AT&T: movl $_value,%ebx intel: mov eax,_value

把_value的地址放入eax寄存器

AT&T: movl $0xd00d,%ebx intel: mov ebx,0xd00d

★ 操作数长度标识

AT&T: movw %ax,%bx intel: mov bx,ax

★寻址方式

AT&T: immed32(basepointer,indexpointer,indexscale)
intel: [basepointer indexpointer*indexscale imm32)
linux工作于保护模式下,用的是32位线性地址,所以在计算地址时不用考虑segment:offset的问题.上式中的地址应为:
imm32 basepointer indexpointer*indexscale

下面是一些例子:

★直接寻址

AT&T: _booga ;

_booga是一个全局的c变量注意加上$是表示地址引用,不加是表示值引用.

注:对于局部变量,可以通过堆栈指针引用.

intel: [_booga]

★寄存器间接寻址

AT&T: (%eax)

intel: [eax]

★变址寻址

AT&T: _variable(%eax)

intel: [eax _variable]

AT&T: _array(,%eax,4)

intel: [eax*4 _array]

AT&T: _array(%ebx,%eax,8)

intel: [ebx eax*8 _array] 
二 基本的内嵌汇编

基本的内嵌汇编很简单,一般是按照下面的格式

asm(statements);

例如:asm(nop); asm(cli);

asm 和 __asm__是完全一样的.

如果有多行汇编,则每一行都要加上 nt

例如:

asm( pushl %eaxnt movl $0,%eaxnt popl %eax);

实际上gcc在处理汇编时,是要把asm(...)的内容打印到汇编文件中,所以格式控制字符是必要的.再例如:

asm(movl %eax,%ebx);

asm(xorl %ebx,%edx);

asm(movl $0,_booga);

在上面的例子中,由于我们在行内汇编中改变了edx和ebx的值,但是由于gcc的特殊的处理方法,即先形成汇编文件,再交给gas去汇编,所以gas并不知道我们已经改变了edx和ebx的值,如果程序的上下文需要edx或ebx作暂存,这样就会引起严重的后果.对于变量_booga也存在一样的问题.为了解决这个问题,就要用到扩展的行内汇编语法.


三 扩展的行内汇编

扩展的行内汇编类似于watcom.

基本的格式是:

asm ( statements : output_regs : input_regs : clobbered_regs);

clobbered_regs指的是被改变的寄存器.

下面是一个例子(为方便起见,我使用全局变量):

int count=1;
int value=1;
int buf[10];

void main()
{
 asm(  cld nt  rep nt  stosl : : c (count), a (value) , d (buf[0]) : %ecx,%edi );
}

得到的主要汇编代码为:
movl count,%ecx
movl value,%eax
movl buf,%edi
#app
cld
rep
stosl
#no_app
cld,rep,stos就不用多解释了.

这几条语句的功能是向buf中写上count个value值.冒号后的语句指明输入,输出和被改变的寄存器. 通过冒号以后的语句,编译器就知道你的指令需要和改变哪些寄存器,从而可以优化寄存器的分配.

其中符号c(count)指示要把count的值放入ecx寄存器

类似的还有:

a eax
b ebx
c ecx
d edx
s esi
d edi
i 常数值,(0 - 31)
q,r 动态分配的寄存器
g eax,ebx,ecx,edx或内存变量
a 把eax和edx合成一个64位的寄存器(use long longs)

我们也可以让gcc自己选择合适的寄存器.

如下面的例子:

asm(leal (%1,%1,4),%0 : =r (x) : 0 (x) );

这段代码实现5*x的快速乘法.

得到的主要汇编代码为:

movl x,%eax
#app
leal (%eax,%eax,4),%eax
#no_app
movl %eax,x

几点说明:

1.使用q指示编译器从eax,ebx,ecx,edx分配寄存器.使用r指示编译器从eax,ebx,ecx,edx,esi,edi分配寄存器.

2.我们不必把编译器分配的寄存器放入改变的寄存器列表,因为寄存器已经记住了它们.

3.=是标示输出寄存器,必须这样用.

4.数字%n的用法:数字表示的寄存器是按照出现和从左到右的顺序映射到用r或q请求

的寄存器.如果我们要重用r或q请求的寄存器的话,就可以使用它们.

5.如果强制使用固定的寄存器的话,如不用%1,而用ebx,则

asm(leal (%%ebx,%%ebx,4),%0 : =r (x) : 0 (x) );

注意要使用两个%,因为一个%的语法已经被%n用掉了.

下面可以来解释letter 4854-4855的问题:

1、变量加下划线和双下划线有什么特殊含义吗?加下划线是指全局变量,但我的gcc中加不加都无所谓.

2、以上定义用如下调用时展开会是什么意思?

#define _syscall1(type,name,type1,arg1)

type name(type1 arg1)
{
 long __res;
/* __res应该是一个全局变量 */
__asm__ volatile (int $0x80 /* volatile 的意思是不允许优化,使编译器严格按照你的汇编代码汇编*/ : =a (__res) /* 产生代码 movl %eax, __res */ : 0 (__nr_##name),b ((long)(arg1)));

/* 如果我没记错的话,这里##指的是两次宏展开.即用实际的系统调用名字代替name,然后再把__nr_...展开.接着把展开的常数放入eax,把arg1放入ebx */

if (__res >= 0)
return (type) __res;
errno = -__res;
return -1;
}

==================================================================================

[如需转载请注明出处:(雄)blog.csdn.net/mickey139]

posted @ 2008-10-04 21:10  BinSys  阅读(867)  评论(0编辑  收藏  举报