【旧文章搬运】KeUserModeCallback用法详解
原文发表于百度空间及看雪论坛,2010-01-10
看雪论坛地址:https://bbs.pediy.com/thread-104918.htm 代码及附件可到这里下载
==========================================================================
ring0调用ring3早已不是什么新鲜事,除了APC,我们知道还有KeUserModeCallback.其原型如下:
NTSTATUS KeUserModeCallback ( IN ULONG ApiNumber, IN PVOID InputBuffer, IN ULONG InputLength, OUT PVOID *OutputBuffer, IN PULONG OutputLength );
但是对于这个函数怎么用,很多人还不是很清楚,因为它未文档化,参数意义又比较晦涩,但是我们除了wrk中的源码可以参考,还有一些实例可供调试研究。所以,要搞清楚它的调用过程并不困难,但是需要一些基本的知识,比如系统调用和返回的过程(KiFastCallEntry,KiServiceExit等)。本文尽量不多谈这种过程转换的细节,而把主要注意力集中在传入的参数及调用过程,以灰盒的方式来分析它。
调试的例子是一个俄国佬的Ring0MessageBox,我自己也写过一份(其实就是逆的),放在看雪了,几乎完全一样。代码地址放在文后了,这东西以前发过一次,不过没讲原理.
有兴趣的可以下载回来扔到Vmware里,拿起调试器,一起来Debug~
一、KeUserModeCallback的基础知识
我们都知道一个普通的系统调用,它的过程大概是这样的(以OpenProcess为例):
kernel32!OpenProcess -> ntdll!ZwOpenProcess -> ntdll!KiFastSystemCall -> sysenter -> nt!KiFastCallEntry -> nt!NtOpenProcess -> nt!KiFastCallEntry(返回后)-> nt!KiServiceExit -> sysexit -> ntdll!KiFastSystemCallRet -> kernel32!OpenProcess(返回后)
这是一个ring3->ring0->ring3的过程。
而KeUserModeCallback的过程是这样的
nt!KeUserModeCallback -> nt!KiCallUserMode -> nt!KiServiceExit -> ntdll!KiUserCallbackDispatcher -> 回调函数 -> int2B -> nt!KiCallbackReturn -> nt!KeUserModeCallback(调用后)
这是一个ring0->ring3->ring0的过程,在堆栈准备完毕后,借用KiServiceExit的力量回到了ring3,它的着陆点是KiUserCallbackDispatcher,然后KiUserCallbackDispatcher从PEB中取出KernelCallbackTable的基址,再以ApiIndex作为索引在这个表中查找对应的回调函数并调用,调用完之后再int2B触发nt!KiCallbackReturn再次进入内核,修正堆栈后跳回KeUserModeCallback,完成调用。
大致的流程是这样的,只要搞清楚传入的参数是如何使用并如何影响到最后的执行结果,就知道怎么去调用了。
需要注意的地方是:
(1) ring3的指令只能访问ring3的内存地址,所以如果需要访问数据,必须放在ring3可以访问到的内存中。所以在准备参数的过程中,通常是使用ZwAllocateVirtualMemory来申请ring3内存,其它方法如使用已有的内存,或放在栈中(_ClientLoadLibrary的方法)等都是可以的,只是访问数据时小有差别罢了。
(2)KeUserModeCallback的调用需要用户态栈的参与,因此内核线程无法调用KeUserModeCallback,必须在某个ring3线程的上下文中才可以。
下面进行具体的调试观察,以事实说话。
二、数据准备
调试环境:Vmware+WinXPSP2+Windbg
加载Callback.sys驱动,然后执行ring3部分的CallBackClient.exe,触发CallMessageBox调用~
这个函数先是一些准备工作,先获取当前进程的PEB并从中找到user32.dll的地址,然后GetProcAddress取得MessageBoxA的地址,这个没什么好说的。
这里取到的数据是:
user32.dll Base=0x77D10000
Address of MessageBoxA=0x77D5058A
KernelCallbackTable=0x77D12970
然后申请一块用户态内存,放入shellcode和需要的数据(这里是字符串),这样在ring3就可以访问了。
Alloced Buffer=0x00370000 //申请到的内存地址
然后把我们在ring3要执行的代码和数据放到申请的buffer里.
//开始填充缓冲区 *(ULONG*)pBuf=(ULONG)pBuf+sizeof(ULONG);//这里放的是一个shellcode的指针,shellcode将会被放在pBuf+4的位置 RtlCopyMemory(pBuf+4,(char*)CallBackStub,CALLSTUBLEN);//pBuf+4的位置开始是shellcode RtlCopyMemory(pBuf+32,szText,strlen(szText));//从bufer+32开始拷贝字符参数 RtlCopyMemory(pBuf+32+strlen(szText)+1,szCaption,strlen(szCaption));//注意加1以便留出一个0x00作为sxText的结束符
缓冲区的填充并没有什么特别的要求。这里我排列好的样子是:
kd> db 0x00370000 00370000 04 00 37 00 8b 44 24 04-ff 70 10 ff 70 0c ff 70 ..7..D$..p..p..p 00370010 08 ff 70 04 ff 10 c2 08-00 00 00 00 00 00 00 00 ..p............. 00370020 4b 65 55 73 65 72 4d 6f-64 65 43 61 6c 6c 62 61 KeUserModeCallba 00370030 63 6b 3a 20 48 65 6c 6c-6f 20 66 72 6f 6d 20 72 ck: Hello from r 00370040 69 6e 67 30 20 21 21 21-00 52 69 6e 67 30 00 00 ing0 !!!.Ring0.. 00370050 00 00 00 00 00 00 00 00-00 00 00 00 00 00 00 00 ................ 00370060 00 00 00 00 00 00 00 00-00 00 00 00 00 00 00 00 ................ 00370070 00 00 00 00 00 00 00 00-00 00 00 00 00 00 00 00 ................
pBuf开头,存放的是shellcode的地址
pBuf+4, 是我们准备的一小段shellcode,地址为0x00370004
pBuf+0x20,是MessageBoxA的szText参数
pBuf+0x4A,是MessageBoxA的szCaption参数
三、参数准备
然后才是最关键的KeUserModeCallback的参数填写:
参数一:ApiIndex
ApiIndex=((ULONG)pBuf - KernelCallbackTable)/4;
为什么这么计算呢?因为ApiIndex本来的意义就是像它的名字所描述的那样,是在一个表中的索引。这个表就是KernelCallbackTable,KiUserCallbackDispatcher是这样取得回调函数的地址的:
CallbackFunPointer=KernelCallbackTable[ApiIndex]
所以我们计算Index的时候刚好相反,减去KernelCallbackTable,再除以4(也就是机器字长,指针的长度),但是注意pBuf必须是按字长对齐的,否则经过逆运算之后无法得到原始值。
所以,ApiIndex=(0x00370000-0x77D12970)/4=0x221975a4
然后:
Arguments[0]=addrMessageBoxA; Arguments[1]=0;//hWnd=NULL Arguments[2]=(ULONG)pBuf+32;//szText Arguments[3]=(ULONG)pBuf+32+strlen(szText)+1;//szCaption Arguments[4]=0;//MB_OK
Arguments是我构造的一个数组,其第一个元素是MessageBoxA的地址,后面依次是MessageBoxA的各个参数,这此数据将被会shellcode所使用。
然后调用KeUserModeCallback,传入的ApiIndex即刚才计算得到的数据,InputBuffer就是构造的Arguments数组,InputBufferLen就是传入的数组的大小。
OutputBuffer和OutputBuffer似乎并没有被使用,只要传入有效的值就可以了。
具体数据:ApiIndex=0x221975a4,InputBufferLength=0x14
四、调用细节
接下来,我们进入KeUserModeCallback的内部过程(参考了wrk),由于后面涉及的调用大多都不是标准的调用过程,所以必须密切关注栈的变化。
代码:
KeUserModeCallback() { //只分析关键代码 //从KPCR->CurrentThread->TrapFrame->HardwareEsp取得UserStack的地址,这里为0012fef0 UserStack = KiGetUserModeStackAddress (); //注意该函数返回的是一个指向UserStack的指针 //保存原始的UserStack,后面还要恢复 OldStack = *UserStack; //接下来要往栈里放数据,计算新的栈顶,OldStack - InputLength就是新的栈顶了,再对齐一下,这里值为0012fedc NewStack = (OldStack - InputLength) & ~(__alignof(EXCEPTION_REGISTRATION_RECORD) - 1); //计算EXCEPTION_REGISTRATION_RECORD需要的Length,这里为KiCallUserMode做准备(xp和win2003此处略有不同,xp下Length固定为0x10) Length = 4*sizeof(ULONG) + sizeof(EXCEPTION_REGISTRATION_RECORD); //从NewStack再向上Length大小的位置开始,验证是否可写,验证的地址为0012fecc 长度为Length + InputLength= 0x10 + 0x14 = 0x24 ProbeForWrite ((PCHAR)(NewStack - Length), Length + InputLength, sizeof(CHAR)); //没有异常,将传入的数据拷入栈中,此时NewStack=OldStack - InputLength kd> r esi,edi,ecx esi=f6299bdc edi=0012fedc ecx=5 kd> dd esi f6299bdc 77d5058a 00000000 00370020 00370049 f6299bec 00000000 00001000 f6299b34 00000346 kd> dd edi //NewStack 0012fedc 00000018 00000000 0012ff1c 00000040 0012feec 00000000 7c92d8ef 7c801671 000000a4 RtlCopyMemory ((PVOID)NewStack, InputBuffer, InputLength); // // Push arguments onto user stack. Note space remains for the exception // registration record following the callback function arguments. // //0012fedc再减0x10,为0012fecc NewStack -= Length; *((PULONG)NewStack) = 0; *(((PULONG)NewStack) + 1) = ApiNumber; *(((PULONG)NewStack) + 2) = (ULONG)(NewStack+Length); *(((PULONG)NewStack) + 3) = (ULONG)InputLength; //保存新设置的NewStack到TrapFrame中 *UserStack = NewStack; //调用KiCallUserMode Status = KiCallUserMode(OutputBuffer, OutputLength); //调用KiCallUserMode时用户栈的内容是这样的(esp=0x0012fecc): kd> dd 0012fecc 0012fecc 00000000 221975a4 0012fedc 00000014 0012fedc 77d5058a 00000000 00370020 00370049 0012feec 00000000 7c92d8ef 7c801671 0000009c //KiCallUserMode的细节不多讲,下面省略 }
五、回到ring3继续执行
现在回到ring3了,ring3下还是习惯用OD,在KiUserCallbackDispatcher处下断(注意使用条件断点,否则无数飞向user32的调用将会把你淹没)。
此时栈的情况是这样的:
此时各寄存器的值:
可以看到,这时esp=0x12fecc,正是KiCallUserMode之前UserESP的值,栈中的数据和KiCallUserMode时用户栈的内容是一样的.
代码:
ntdll!KiUserCallbackDispatcher 7C92EAD0 > 83C4 04 add esp,4 //跳过栈中第一个数据,然后栈顶就是ApiIndex了 7C92EAD3 5A pop edx //ApiIndex到edx中 7C92EAD4 64:A1 18000000 mov eax,dword ptr fs:[18] //TEB->NtTib.Self,指向TEB本身,放到eax中 7C92EADA 8B40 30 mov eax,dword ptr ds:[eax+30] //TEB偏移0x30处即PEB,放到eax中 7C92EADD 8B40 2C mov eax,dword ptr ds:[eax+2C] //PEB偏移0x2C处即KernelCallbackTable,放到eax中 7C92EAE0 FF1490 call dword ptr ds:[eax+edx*4] //查表并调用 7C92EAE3 33C9 xor ecx,ecx 7C92EAE5 33D2 xor edx,edx 7C92EAE7 CD 2B int 2B
在这里:call dword ptr ds:[eax+edx*4]
eax即KernelCallbackTable,edx即ApiIndex,这只是一个简单的查表动作
这个KernelCallbackTable是给use32.dll用的,可以观察一下(省略了很多内容):
77d12970 77d3f534 USER32!__fnCOPYDATA 77d12974 77d583ac USER32!__fnCOPYGLOBALDATA ... 77d12a5c 77d3f5cb USER32!__ClientFreeLibrary 77d12a60 77d3a3fc USER32!__ClientGetCharsetInfo 77d12a64 77d58a7c USER32!__ClientGetDDEFlags 77d12a68 77d58bd5 USER32!__ClientGetDDEHookData 77d12a6c 77d4f715 USER32!__ClientGetListboxString 77d12a70 77d365aa USER32!__ClientGetMessageMPH 77d12a74 77d3aa6d USER32!__ClientLoadImage 77d12a78 77d3dc84 USER32!__ClientLoadLibrary ... 77d12af0 77d590c5 USER32!__fnOUTLPCOMBOBOXINFO 77d12af4 77d59105 USER32!__fnOUTLPSCROLLBARINFO
这里面就有大家比较熟悉的全局钩子相关的USER32!__ClientLoadLibrary和USER32!__ClientFreeLibrary
也就是说,KiUserCallbackDispatcher仅仅是按照索引从这个表中取出对应的函数的地址并调用,这就是参数名称为什么叫做ApiIndex.
我们前面计算ApiIndex的过程就是这个过程的逆过程,所以计算结果为:
FunPointer=77d12970 + 0x221975a4 * 4 = 0x00370000 //(实际上高位发生了溢出,但是并不影响)
所以这里实际上就是call dword ptr ds:[0x00370000]
0x00370000是什么呢?就是我们前面申请的内存的地址
而0x00370000里的值是0x00370004,也就是我们放置的shellcode的地址,这样就call到我们的shellcode去了~~
如图:
shellcode:
现在对于前面为何那样放置数据比较清楚了吧~
六、执行指定代码
下面是准备执行shellcode的时候的栈中的数据:
简单分析:此时栈顶是返回地址,然后依次存放的是复制参数时的UserStack,然后是InputBufferLength,再往下就是我们传入的Arguments数组的内容了,此时栈中的数据已经非常明了,所以shellcode为什么这样写一点也不用奇怪了~~
//[esp]是返回地址,返回到KiUserCallbackDispatcher中 00370004 8B4424 04 mov eax,dword ptr ss:[esp+4] //eax就是KeUserModeCallback中NewStack的值,指向我们传入的InputBuffer 00370008 FF70 10 push dword ptr ds:[eax+10] //第四个参数入栈 0037000B FF70 0C push dword ptr ds:[eax+C] //第三个参数入栈 0037000E FF70 08 push dword ptr ds:[eax+8] //第二个参数入栈 00370011 FF70 04 push dword ptr ds:[eax+4] //第一个参数入栈 00370014 FF10 call dword ptr ds:[eax] //[eax]就是MessageBoxA,执行到这里,MessageBox弹出来了~ 00370016 C2 0800 retn 8 //这个ret 8是固定的
为什么要有shellcode?
对于win32k发起的KeUserModeCallback,因为它在ring3有人接头(KernelCallbackTable中的各个函数),所以只需要传入ApiIndex和InputBuffer相关的就可以了。而我们自己发起的KeUserModeCallback则没有接头人,所以必须自己操办一切,在ring0找好接头人,然后回调过去让它办事。
shellcode一定要这么写吗?
不是的。事实上这个shellcode的写法并不好,只能处理固定的四个参数,若参数不是四个将会出现错误。具体shellcode如何写,取决于栈中的数据排列和数据的意义。只要能正确使用数据并返回,shellcode怎么写随你的便~~甚至你可以直接修改KiUserCallbackDispatcher的代码,那么怎么调用你说了算(比如发现是全局钩子回调节器的ApiIndex,也就是0x42就咔嚓掉啊~~).
七、返回内核
执行完回调函数(在这里就是我们的shellcode)返回到KiUserCallbackDispatcher中,ecx和edx清零后,int2B返回到内核nt!KiCallbackReturn处,随后根据之前保存的环境和数据返回到KeUserModeCallback,KeUserModeCallback再恢复TrapFrame->HardwareEsp,于是就像什么都没有发生过一样~~
实际上由于call之后的操作很简单,所以我们也可以自己实现
add esp,8 int 2B
这样就回到内核了,中间的细节不多讲了,不是今天主题~~
关于回调函数的返回值:
在int2B时,回调函数的返回值在eax中,刚回到KiCallBackReturn时,eax不变,这个返回值一值被保存至返回到KeUserModeCallBack返回,所以KeUserModeCallback的返回值也就是回调函数的返回值。即如果你回调的是OpenProcess,那么KeUserModeCallback的返回值就是ProcessHandle~~
一句话总结:KeUserModeCallback就是把参数放在栈中然后借用KiServiceExit回到ring3的KiUserCallbackDispatcher后得出回调函数地址并执行(参数在栈中),然后又int2B回到ring0。
其它事项:
(1)KeUserModeCallback的调用是一个非常“精密”的过程,所以必须小心填写参数.
(2)由于KernelCallbackTable是专为User32.dll使用的,所以如果一个进程未加载user32.dll,那么PEB->KernelCallbackTable将为NULL.此时上面的代码将无法工作,但是我们可以自己构造一个表并填充这个域~
(3)纯内核线程无法调用KeUserModeCallback,因为它没有UserStack~
所以,想在DriverEntry中Attach到别的进程使用KeUserModeCallback是不可能成功的,但是我们可以Hook某个地方,然后等目标进程到来的时候,借用它的线程来实现调用~