先说结论,报错的原因是nvcc -V的版本低于虚拟环境内的cudatoolkit的版本,服务器上nvcc -V的版本是10.0的,但是我的cudatoolkit是11.3

解决方法:提升nvcc -V的版本,如果服务器里本身就有装更高版本的cuda(路径一般在/usr/local下),直接在~/.bachrc里切换版本就行,但是我用的服务器里没有更好版本,所以要自己再装一个高版本的

官网下载链接:https://developer.nvidia.com/cuda-toolkit-archive
这个版本要小于等于nvidia-smi的右上角的版本,我的右上角版本是11.4,所以同样选择了11.4的

在这里插入图片描述
按照操作系统、架构等选择,installer type选runfile(local),在服务器上运行下面两行命令

第一步提示Existing package manager installation of the driver found. It is strongly recommended…,先选continue,后面的driver前面的勾去掉
在这里插入图片描述
然后install就行

安装完了再次运行nvcc -V,发现还是10.0。vim ~/.bashrc,把里面所有涉及CUDA版本的地方都改成11.4
(输入i是插入操作,插入之后esc退出,:wq保存)
之后source ~/.bashrc
再nvcc -V就看到版本已经成功切换到11.4了

注:虚拟环境里的cudatoolkit版本要低于等于nvcc -V的版本,我的nvcc是11.4,cudatoolkit是11.3,nvidia-smi右上角是11.4

------------------------------------------11.19更新---------------------------------------
昨天还跑的好好的代码 今天就跑不了了
又是这个问题
又装了个11.3的CUDA解决了
现在配置是nvidia-smi右上角11.4,nvcc -V11.3,torch1.9.0+cu11.1
中间试了torch1.12的,也不行,就这样吧
程序和人有一个能跑就行:)
---------------------------------------2025.8.25更新-----------------------------------
我真服了
切版本bashrc没改完
CUDA_HOME还是原来的10.1
我说怎么CUDA11.3和12.8都不行
补充一条 nvcc11.3,cudatoolkit11.1,nvidia-smi右上角12.8也可以
到底是谁!动了我的nvcc!!!

不行还是得换回12.8
11.3掉驱动啊为什么啊啊啊啊啊啊
两张卡变成一张卡了

-------------------------------------------一些碎碎念-----------------------------------------------
原来一直用的服务器项目组的在用
一跑验证就卡了 怀疑是cpu爆了
就打算换一个服务器跑
配完环境发现跑不了
终于想起了当年为什么没在这个服务器上跑
干脆一次性把问题解决了:)

好久没写csdn了
csdn现在好多都要开通vip才能看到具体内容太烦了
还有要求关注才能查看的
好好的分享经验的平台整成这样真是麻了

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐