cutlass

cutlass编译使用过程

cutlass使用cuda编写的矩阵乘法加速模板.github地址:click here

笔者第一次clone到本地的版本是当前最新的v3.0,但发现此版本对环境要求过高.如下:

NVIDIA CUDA Toolkit (11.4 or later required, 12.0 recommended)
CMake 3.18+
host compiler supporting C++17 or greater (minimum g++ 7.5.0)
Python 3.6+

cmake版本,在服务器反复尝试更新无果,最后发现可以使用anaconda来更新.由于清华源版本过低,使用

conda search cmake

获得channel中的可用cmake版本,随后(大概是)

conda install cmake=3.19.2

完成cmake的配置.然而CUDA版本却是个难题.实验室服务器使用的版本都是10.2,难以更改.思来想去,觉得这玩意不可能一上来就只能支持11.4+的版本,于是打开版本列表,果不其然就在2.11版本中,要求还是CUDA>=9.2.遂安装此版本.

依照Quickstart中的指示,应该执行

$ export CUDACXX=${CUDA_INSTALL_PATH}/bin/nvcc

$ mkdir build && cd build

$ cmake .. -DCUTLASS_NVCC_ARCHS=80               # compiles for NVIDIA Ampere GPU architecture

然而第三行出现了问题.提示无法找到nvcc.用

printenv CUDA_INSTALL_PATH

发现,此环境变量为空.(吐槽一句为什么啥都是空啊)

依照指引,寻得本地cuda目录应为/usr/local/cuda-10.2/bin/nvcc.替换掉上述指令后,提示compute_80为不支持的计算架构.

nvcc fatal: Unsupported gpu architecture 'compute_80'

求助搜索引擎得知这代表8.0及以上的计算能力,由于服务器显卡型号为GTX 1080,算力为6.1,故无法编译通过.(算力表,另,此处的conpute capability不是实际的计算能力大小,而是指GPU架构,决定了能执行的任务种类.)

实际上-DCUTLASS_NVCC_ARCHS=80就是设定了这一参数.在文档的中部,也给出了不同架构GPU的编译方法.选择

$ cmake .. -DCUTLASS_NVCC_ARCHS="60;61"          # compiles for NVIDIA Pascal GPU architecture

此后编译一切正常,cutlass安装成功.

posted @ 2023-01-29 23:38 LinXiaoshu 阅读(2111) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· petals环境搭建

· CUDAbyExample环境搭建

· Cuda 驱动安装

· ubuntu24.04安装cuda12.5版本

· 折腾笔记[4]-cuda的hello-world

阅读排行：
· winform 绘制太阳，地球，月球运作规律
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具

公告

昵称： LinXiaoshu
园龄： 4年11个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

LinXiaoshu

cutlass

cutlass编译使用过程

公告

搜索

常用链接

随笔分类

随笔档案

文章分类

相册

阅读排行榜

推荐排行榜