LLVM intrinsic与assembly指令
LLVM intrinsic与assembly指令
什么是 LLVM intrinsic
LLVM 支持“intrinsic function”的概念。这些函数具有众所周知的名称和语义,并且需要遵循某些限制。总的来说,这些 intrinsic 代表 LLVM 语言的扩展机制,在添加到语言(或者位码读取器/写入器、解析器等)时不需要更改 LLVM 中的所有转换。
Intrinsic函数是编译器内建的函数,由编译器提供,类似于内联函数。但与内联函数不同的是,因为Intrinsic函数是编译器提供,而编译器与硬件架构联系紧密,因此编译器知道如何利用硬件能力以最优的方式实现这些功能。
命名格式
intrinsic名必须全部以“ llvm”开头前缀。这个前缀在 LLVM 中保留用于intrinsic名称; 因此,函数名称不能以这个前缀开头。intrinsic函数必须始终是外部函数: 你不能定义intrinsic函数体。intrinsic函数只能用于调用或调用指令: 获取intrinsic函数的地址是非法的。此外,由于intrinsic函数是 LLVM 语言的一部分,如果添加了intrinsic函数,则需要对其更新文档。
重载
一些intrinsic函数可以被重载,例如,intrinsic函数表示一组在不同数据类型上执行相同操作的函数。由于 LLVM 可以表示超过800万种不同的整数类型,因此通常使用重载来允许intrinsic函数对任何整数类型进行操作。可以重载一个或多个参数类型或结果类型以接受任何整数类型。也可以将参数类型定义为与前一个参数的类型或结果类型完全匹配。这允许一个intrinsic函数接受多个参数,但是需要所有参数都是同一类型的,只能对一个参数或结果进行重载。
重载 intrinsic 将把它重载的参数类型的名称编码到它的函数名中,每个参数类型的前面都有一个.点符号。只有那些重载的类型才会生成名称后缀。其类型与另一个类型匹配的参数则不会。例如,llvm.ctpop 函数可以获取任意宽度的整数,并返回完全相同整数宽度的整数。这导致了一系列函数,如 @llvm.ctpop.i8(i8 %val)和 i29 @llvm.ctpop.i29(i29 %val).只有一个类型(返回类型)被重载,并且只需要一个类型后缀。因为参数的类型与返回类型匹配,所以它不需要自己的名称后缀。
未命名类型被编码为 s_s。依赖于其重载参数类型中的未命名类型的重载 intrinsic 将获得一个额外的 .后缀。这允许将不同的未命名类型作为参数来区分 intrinsic。(例如: llvm.ssa.copy.p0s_s.2(%42*)), 这个数字在 LLVM 模块中被跟踪,并确保模块中的唯一名称。在将两个模块链接在一起时,仍然有可能出现名称冲突。在这种情况下,其中一个名称将通过获得一个新numver来区分。
对于为后端codegen定义 intrinsic 的目标开发人员,不应该依赖任何仅基于整数或浮点类型之间区别的内部重载来生成代码。在这种情况下,开发人员在定义 intrinsic 时, 推荐的方法是创建单独的整数和 浮点的 intrinsic,而不是依赖于重载。
例如,如果 llvm.target.foo(<4 x i32>))和 llvm.target.foo(<4 x float>) 需要不同的 codegen,那么应该将它们分成不同的 intrinsic。
变量参数处理
在 LLVM 中定义了变量参数支持,包括 va_arg 指令和三个内在函数。这些函数与 头文件中定义的命名类似的宏相关。
所有这些函数都对使用特定于目标的值类型“ va_list”的参数进行操作。LLVM 汇编语言参考手册没有定义此类型是什么,因此无论使用何种类型,都应该准备好处理这些函数。
举个例子
这个例子展示了如何使用 va_arg 指令和intrinsic 函数处理变量参数。
; 定义一个test 函数,第一个i32是返回值,
; 后面括号里面的是操作数 i32 %X
define i32 @test(i32 %X, ...) {
; 分配一个地址空间给变量,初始化va_list
%ap = alloca %struct.va_list
%ap2 = bitcast %struct.va_list* %ap to i8*
call void @llvm.va_start(i8* %ap2)
; va_arg= variable_argument
; 这个指令用于访问传递的参数
%tmp = va_arg i8* %ap2, i32
; 演示如何使用 llvm.va_copy 和 llvm.va_end
%aq = alloca i8*
%aq2 = bitcast i8** %aq to i8*
call void @llvm.va_copy(i8* %aq2, i8* %ap2)
call void @llvm.va_end(i8* %aq2)
; 停止参数的处理
call void @llvm.va_end(i8* %ap2)
ret i32 %tmp
}
; 声明方法,类似cpp里面的extern
declare void @llvm.va_start(i8*)
declare void @llvm.va_copy(i8*, i8*)
declare void @llvm.va_end(i8*)
Read more
https://zhuanlan.zhihu.com/p/53659330
https://docs.microsoft.com/en-us/cpp/cpp/extern-cpp?view=msvc-170
https://llvm.org/docs/LangRef.html#intrinsic-functions
汇编基础指令
汇编
在计算机程序设计中,汇编语言,是任何一种低级语言语言中的指令和结构中的机器代码指令之间有很强的对应关系。汇编语言通常每个指令有一个语句,但是通常也支持常量、注释、汇编程序指令、象内存位置、寄存器和宏的符号标签。
比如and 运算
Operand1: 0101
Operand2: 0011
-------------------------After AND -> Operand1: 0001
常用的指令
• SHL shift left (左移)指令对目标操作数执行逻辑左移,将最低位填充为0。SHR (右移)指令对目标操作数执行逻辑右移。最高位的位置填充为零。SAL (左移位算法)与 SHL 相同。
• EAX extended 它代表通用寄存器。16位 AX 寄存器可以寻址为 AH (高字节)和 AL (低字节)。EAX 寄存器是 AX 寄存器的32位版本。代表扩展。
• MOV 数据移动指令 mov 指令将其第二个操作数(即寄存器内容、内存内容或常量值)引用的数据项复制到其第一个操作数引用的位置(即寄存器或内存)。
• ECX count register BX 被称为基寄存器,因为它可以用于索引寻址。CX 称为计数寄存器,因为 ECX、 CX 寄存器在迭代操作中存储循环计数。DX 被称为数据寄存器。它也用于输入/输出操作。
分类
数据传输指令
它们在存贮器和寄存器、寄存器和输入输出端口之间传送数据.
1. 通用数据传送指令.
• MOV 传送字或字节.
• PUSH 把字压入堆栈.
• POP 把字弹出堆栈.
• BSWAP 交换32位寄存器里字节的顺序
• XCHG 交换字或字节.( 至少有一个操作数为寄存器,段寄存器不可作为操作数)
• XADD 先交换再累加.( 结果在第一个操作数里 )
2. 输入输出端口传送指令.
• IN I/O端口输入. ( 语法: IN 累加器, {端口号│DX} )
• OUT I/O端口输出. ( 语法: OUT {端口号│DX},累加器 )
3. 目的地址传送指令.
• LEA 装入有效地址.例: LEA DX,string ;把偏移地址存到DX.
• LGS 传送目标指针,把指针内容装入GS.例: LGS DI,string ;把段地址:偏移地址存到GS:DI.
• LSS 传送目标指针,把指针内容装入SS.例: LSS DI,string ;把段地址:偏移地址存到SS:DI.
4. 标志传送指令.
• LAHF 标志寄存器传送,把标志装入AH.
• POPF 标志出栈.
• PUSHD 32位标志入栈.
• POPD 32位标志出栈.
算术运算指令
ADD 加法.
ADC 带进位加法.
SUB 减法.
SBB 带借位减法.
逻辑运算指令
AND 与运算.
OR 或运算.
XOR 异或运算.
参考
https://www.tutorialspoint.com/assembly_programming/assembly_logical_instructions.htm
https://sites.google.com/site/huibianyuyanzaixianbangzhu/emu8086bang-zhu/hui-bian-zhi-ling
参考文献了解
https://mp.weixin.qq.com/s/4qoK4dYevDj8nVmSXRfigg