报错解决：RuntimeError: CUDA error: no kernel image is available for execution on the device

糖豆豆今天也要努力鸭

4867人浏览 · 2024-11-17 22:26:40

糖豆豆今天也要努力鸭 · 2024-11-17 22:26:40 发布

先说结论，报错的原因是nvcc -V的版本低于虚拟环境内的cudatoolkit的版本，服务器上nvcc -V的版本是10.0的，但是我的cudatoolkit是11.3

解决方法：提升nvcc -V的版本，如果服务器里本身就有装更高版本的cuda(路径一般在/usr/local下)，直接在~/.bachrc里切换版本就行，但是我用的服务器里没有更好版本，所以要自己再装一个高版本的

官网下载链接：https://developer.nvidia.com/cuda-toolkit-archive
这个版本要小于等于nvidia-smi的右上角的版本，我的右上角版本是11.4，所以同样选择了11.4的

在这里插入图片描述
按照操作系统、架构等选择，installer type选runfile(local)，在服务器上运行下面两行命令

第一步提示Existing package manager installation of the driver found. It is strongly recommended…，先选continue，后面的driver前面的勾去掉
在这里插入图片描述
然后install就行

安装完了再次运行nvcc -V，发现还是10.0。vim ~/.bashrc，把里面所有涉及CUDA版本的地方都改成11.4
（输入i是插入操作，插入之后esc退出，:wq保存）
之后source ~/.bashrc
再nvcc -V就看到版本已经成功切换到11.4了

注：虚拟环境里的cudatoolkit版本要低于等于nvcc -V的版本，我的nvcc是11.4，cudatoolkit是11.3，nvidia-smi右上角是11.4

------------------------------------------11.19更新---------------------------------------
昨天还跑的好好的代码今天就跑不了了
又是这个问题
又装了个11.3的CUDA解决了
现在配置是nvidia-smi右上角11.4，nvcc -V11.3，torch1.9.0+cu11.1
中间试了torch1.12的，也不行，就这样吧
程序和人有一个能跑就行：)
---------------------------------------2025.8.25更新-----------------------------------
我真服了
切版本bashrc没改完
CUDA_HOME还是原来的10.1
我说怎么CUDA11.3和12.8都不行
补充一条 nvcc11.3，cudatoolkit11.1，nvidia-smi右上角12.8也可以
到底是谁！动了我的nvcc！！！

不行还是得换回12.8
11.3掉驱动啊为什么啊啊啊啊啊啊
两张卡变成一张卡了

-------------------------------------------一些碎碎念-----------------------------------------------
原来一直用的服务器项目组的在用
一跑验证就卡了怀疑是cpu爆了
就打算换一个服务器跑
配完环境发现跑不了
终于想起了当年为什么没在这个服务器上跑
干脆一次性把问题解决了：)

好久没写csdn了
csdn现在好多都要开通vip才能看到具体内容太烦了
还有要求关注才能查看的
好好的分享经验的平台整成这样真是麻了

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，