[CUDA] 同一个函数根据运行设备选择不同的运行方式

一、简介

有时我们需要在hostdevice端实现同样的一个函数。
一个简单的方法是分别在hostdevice端上实现两个同名函数,例如fun_host()fun_device(),在hostdevice上分别使用不同的函数。
另一种方法只使用一个函数fun(),在编译时根据运行目标的不同选择使用不同的实现方式。该方法可以使用宏 __CUDA__ARCH__实现,本文给出了该方法的实现示例。

二、代码示例

main.cu程序代码:

#include <math.h>
#include <stdio.h>
#include <cuda_runtime.h>
__host__ __device__ inline void fun()
{
#ifdef __CUDA_ARCH__
    float a = fdividef(1.0f, 3.0f);
    printf("In device, result is %f\n", a);
#else
    float a = 1.0f / 3.0f;
    printf("In host, result is %f\n", a);
#endif
};

__global__ void f()
{
    fun();
}

int main()
{
    fun();         // in host
    f<<<1, 1>>>(); // in device
    cudaDeviceSynchronize();
    return 0;
}

CMakeLists.txt文件内容:

cmake_minimum_required(VERSION 3.0.0)
project(HelloWorld VERSION 0.1.0 LANGUAGES C CXX)
find_package(CUDA REQUIRED)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} --std=c++11")
cuda_add_executable(HelloWorld main.cu)

运行结果:

In host, result is 0.333333
In device, result is 0.333333

posted on   刘好念  阅读(13)  评论(0编辑  收藏  举报  

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示