OpenCL入门例程

OpenCL是一个并行计算库。在Visual Studio中的配置类似于OpenCV,只需要把开发包下载下来,里面有include、lib、bin文件夹,在项目设置里添加上就行了。一般Windows系统自己带的就有OpenCL.dll,在Windows/System32/文件夹里。不同于英伟达的CUDA编程自己搞了个编译器集成到Visual Studio中。OpenCL不需要编译器,它是将GPU核函数源代码作为字符串传给SDK即时解释执行的。

下面将给出一个例子,需要读者熟悉C++11以上标准。该例子里核函数运算量比较大,因为测试发现过于简单的运算CPU更快。此例子在Release版下GPU运算速度略高于CPU。测试环境是VS2017、OpenCL306,CPU型号是Intel Core i5-7400,核芯显卡。当然在OpenCL SDK里的opencl.hpp头文件里也有一个官方例子说明了使用显卡加速的流程。

const int numElements = 1000000;

int main()
{
    std::string kernel{ R"CLC(
        kernel void vectorOpr(global const float *input, global float *output)
        {
            int i = get_global_id(0);
            for (int j = 0; j < 10; j++)
            {
                if (input[i] < 50)
                {
                    output[i] += 0;
                }
                else if (input[i] > 100)
                {
                    output[i] += 1;
                }
                else
                {
                    output[i] += sin(input[i] - 50) / cos(input[i] - 50);
                }
            }
        }
    )CLC" };

    cl::Program anyProgram(kernel);
    try
    {
        anyProgram.build("-cl-std=CL2.0");
    }
    catch (...)
    {
        cl_int buildErr = CL_SUCCESS;
        auto buildInfo = anyProgram.getBuildInfo<CL_PROGRAM_BUILD_LOG>(&buildErr);
        for (auto &pair : buildInfo)
        {
            std::cerr << pair.second << std::endl << std::endl;
        }
        return 1;
    }

    std::mt19937 mt;
    cl::coarse_svm_vector<float> input(numElements, 75);
    cl::vector<float> output(numElements, 1);
    for (auto& item : input)
    {
        item = mt() % 200;
    }
    cl::Buffer buff(output.begin(), output.end(), false);

    auto anyKernel = cl::KernelFunctor<float*, cl::Buffer&>(anyProgram, "vectorOpr");

    std::chrono::system_clock::time_point t1, t2;

    t1 = std::chrono::system_clock::now();
    anyKernel(cl::EnqueueArgs(cl::NDRange(numElements), cl::NDRange(1)), input.data(), buff);
    copy(buff, output.begin(), output.end());
    t2 = std::chrono::system_clock::now();
    std::cout << "显卡(ms):" << std::chrono::duration_cast<std::chrono::milliseconds>(t2 - t1).count() << std::endl;

    cl::vector<float> A(numElements, 75);
    cl::vector<float> C(numElements, 1);
    for (auto& item : A)
    {
        item = mt() % 200;
    }

    t1 = std::chrono::system_clock::now();
    for (int i = 0; i < numElements; i++)
    {
        for (int j = 0; j < 10; j++)
        {
            if (A[i] < 50)
            {
                C[i] += 0;
            }
            else if (A[i] > 100)
            {
                C[i] += 1;
            }
            else
            {
                C[i] += sin(A[i] - 50) / cos(A[i] - 50);
            }
        }
    }
    t2 = std::chrono::system_clock::now();
    std::cout << "CPU(ms):" << std::chrono::duration_cast<std::chrono::milliseconds>(t2 - t1).count() << std::endl;
    return 0;
}

注意这一行:anyKernel(cl::EnqueueArgs(cl::NDRange(numElements), cl::NDRange(1)), input.data(), buff);。它重载了operator()(...)函数是异步的,只负责将参数传递给后台处理队列。如果你想等待核函数执行完毕,需要接收它的返回值cl::Event然后调用cl::Event::wait()等待事件结束。在这个例子里由于使用的是cl::Buffer接收处理结果,copy(...)会等待核函数执行完毕才会复制内存。如果是用cl::coarse_svm_vector<float>接收结果则必须等待核函数执行完毕才能进行后续处理,否则可能因数据未同步而出错。

另外,cl::EnqueueArgs(...)里的第一个参数是全局Item大小,第二个参数是局部Item大小。在这个例子里,Item可以理解为对输入数据分组。因此,全局Item大小是固定的就是输入数组元素的数量,而局部Item大小可调,不过有一定的限制不是设置什么数值都行,如果你不知道设多少合适可以不设置这个值,系统会自动选择一个合适的值。合适的大小可以提高程序的效率。有如下关系:

id名称 取值范围 对应的内部函数 取大小的内部函数
local_id [0,局部Item大小) get_local_id(...) get_local_size(...)
global_id [0,全局Item大小) get_global_id(...) get_global_size(...)
group_id [0,全局Item大小/局部Item大小) get_group_id(...) get_num_groups(...)
posted @ 2023-05-09 11:03  兜尼完  阅读(503)  评论(0编辑  收藏  举报