摘要:
6. 杂项说明 6.1. warp级原语 warp作为执行的原始单元(自然位于线程和块之间),重要性对CUDA程序员显而易见。从SM 1.x开始,NVIDIA开始添加专门针对thread的指令。 Vote CUDA体系结构是32位的,并且warp由32个线程组成,这些线程与评估条件,向warp中的每 阅读全文
摘要:
GPU编程和流式多处理器(六) 5. 纹理和表面 读取和写入纹理和表面的指令,所引用的隐式状态,比其他指令要多得多。header中包含诸如基地址,尺寸,格式和纹理内容的解释之类的参数,该header是一种中间数据结构,其软件抽象称为纹理参考或表面参考。当开发人员操纵纹理或表面引用时,CUDA运行时r 阅读全文
摘要:
GPU编程和流式多处理器(五) 4. 条件代码 硬件实现了“条件代码”或CC寄存器,其中包含用于整数比较的常用4位状态向量(符号,进位,零,溢出)。可以使用比较指令(例如ISET)来设置这些CC寄存器,并且它们可以通过谓词或发散来指导执行流程。预测允许(或禁止)在warp内基于每个线程执行指令,而分 阅读全文