OpenCL入门例程
OpenCL是一个并行计算库。在Visual Studio中的配置类似于OpenCV,只需要把开发包下载下来,里面有include、lib、bin文件夹,在项目设置里添加上就行了。一般Windows系统自己带的就有OpenCL.dll,在Windows/System32/文件夹里。不同于英伟达的CUDA编程自己搞了个编译器集成到Visual Studio中。OpenCL不需要编译器,它是将GPU核函数源代码作为字符串传给SDK即时解释执行的。
- 官网(官网博客里有OpenCL SDK的介绍):OpenCL Overview - The Khronos Group Inc
- OpenCL SDK的GitHub链接:GitHub - KhronosGroup/OpenCL-SDK: OpenCL SDK,这个开源仓库说明是需要下载下来自己用CMake编译,有时间的可以自己倒腾,反正我没编译成功,Visual Studio报错说缺少文件。不过这个网页里有编译好的SDK可以点击右侧Releases栏链接查看下载。
- 编译好的OpenCL SDK链接:Releases · KhronosGroup/OpenCL-SDK (github.com)
- 官方API文档:Khronos OpenCL Registry - The Khronos Group Inc
- 入门教程(C语言版):OpenCL 在Windows上搭建开发环境|极客笔记 (deepinout.com)
下面将给出一个例子,需要读者熟悉C++11以上标准。该例子里核函数运算量比较大,因为测试发现过于简单的运算CPU更快。此例子在Release版下GPU运算速度略高于CPU。测试环境是VS2017、OpenCL306,CPU型号是Intel Core i5-7400,核芯显卡。当然在OpenCL SDK里的opencl.hpp头文件里也有一个官方例子说明了使用显卡加速的流程。
const int numElements = 1000000; int main() { std::string kernel{ R"CLC( kernel void vectorOpr(global const float *input, global float *output) { int i = get_global_id(0); for (int j = 0; j < 10; j++) { if (input[i] < 50) { output[i] += 0; } else if (input[i] > 100) { output[i] += 1; } else { output[i] += sin(input[i] - 50) / cos(input[i] - 50); } } } )CLC" }; cl::Program anyProgram(kernel); try { anyProgram.build("-cl-std=CL2.0"); } catch (...) { cl_int buildErr = CL_SUCCESS; auto buildInfo = anyProgram.getBuildInfo<CL_PROGRAM_BUILD_LOG>(&buildErr); for (auto &pair : buildInfo) { std::cerr << pair.second << std::endl << std::endl; } return 1; } std::mt19937 mt; cl::coarse_svm_vector<float> input(numElements, 75); cl::vector<float> output(numElements, 1); for (auto& item : input) { item = mt() % 200; } cl::Buffer buff(output.begin(), output.end(), false); auto anyKernel = cl::KernelFunctor<float*, cl::Buffer&>(anyProgram, "vectorOpr"); std::chrono::system_clock::time_point t1, t2; t1 = std::chrono::system_clock::now(); anyKernel(cl::EnqueueArgs(cl::NDRange(numElements), cl::NDRange(1)), input.data(), buff); copy(buff, output.begin(), output.end()); t2 = std::chrono::system_clock::now(); std::cout << "显卡(ms):" << std::chrono::duration_cast<std::chrono::milliseconds>(t2 - t1).count() << std::endl; cl::vector<float> A(numElements, 75); cl::vector<float> C(numElements, 1); for (auto& item : A) { item = mt() % 200; } t1 = std::chrono::system_clock::now(); for (int i = 0; i < numElements; i++) { for (int j = 0; j < 10; j++) { if (A[i] < 50) { C[i] += 0; } else if (A[i] > 100) { C[i] += 1; } else { C[i] += sin(A[i] - 50) / cos(A[i] - 50); } } } t2 = std::chrono::system_clock::now(); std::cout << "CPU(ms):" << std::chrono::duration_cast<std::chrono::milliseconds>(t2 - t1).count() << std::endl; return 0; }
注意这一行:anyKernel(cl::EnqueueArgs(cl::NDRange(numElements), cl::NDRange(1)), input.data(), buff);。它重载了operator()(...)函数是异步的,只负责将参数传递给后台处理队列。如果你想等待核函数执行完毕,需要接收它的返回值cl::Event然后调用cl::Event::wait()等待事件结束。在这个例子里由于使用的是cl::Buffer接收处理结果,copy(...)会等待核函数执行完毕才会复制内存。如果是用cl::coarse_svm_vector<float>接收结果则必须等待核函数执行完毕才能进行后续处理,否则可能因数据未同步而出错。
另外,cl::EnqueueArgs(...)里的第一个参数是全局Item大小,第二个参数是局部Item大小。在这个例子里,Item可以理解为对输入数据分组。因此,全局Item大小是固定的就是输入数组元素的数量,而局部Item大小可调,不过有一定的限制不是设置什么数值都行,如果你不知道设多少合适可以不设置这个值,系统会自动选择一个合适的值。合适的大小可以提高程序的效率。有如下关系:
id名称 | 取值范围 | 对应的内部函数 | 取大小的内部函数 |
local_id | [0,局部Item大小) | get_local_id(...) | get_local_size(...) |
global_id | [0,全局Item大小) | get_global_id(...) | get_global_size(...) |
group_id | [0,全局Item大小/局部Item大小) | get_group_id(...) | get_num_groups(...) |