RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED

原因分析

  1. batch size 太大了。(最大可能问题)
  2. amp(fp16) 和 tf32 的选择问题。(这个其实是这个报错的本来含义)
  3. cuda和cudnn版本之间冲突。(很少见,一般都可以。给一个可行版本,我的是cuda11,cudnn8)

解决方案

选一个执行即可,第三个大概率不用(作为最后方案)

  1. batch size 设置的小一点
  2. 将fp16设置为tf32
  3. 重装cuda或者cudnn

 

Reference:

https://developer.nvidia.com/zh-cn/blog/accelerating-tensorflow-on-a100-gpus/

posted @ 2024-08-06 19:05  龙雪  阅读(17)  评论(0编辑  收藏  举报  来源