设置Ollama模型跑在GPU上
Ollama 对GPU 支持信息: https://github.com/qianniucity/ollama-doc/blob/main/ollama/docs/Ollama%20%E5%AF%B9GPU%20%E6%94%AF%E6%8C%81%E4%BF%A1%E6%81%AF.md。按照上面设置后,控制台使用Ollama ps 显示GPU是主要负载,但是任务管理器中看到的却是GPU没怎么跑
一、安装CudaToolkit
查看当前显卡驱动中的cuda版本
有两种方法:
1. 使用控制台命令查看。
nvidia-smi 是 NVIDIA 提供的用于监控 GPU 状态的工具,也可以用来检查 CUDA 的版本。
该命令会显示 GPU 的状态和性能信息,包括驱动程序版本和 CUDA 版本。
nvidia-smi
查看显卡驱动的cuda版本
2.通过nvdia控制面板查看。桌面右键打开nvdia控制面板
查看显卡驱动的cuda版本
安装CudaToolkit
CudaToolkit版本 不能大于 上面的显卡Cuda版本。
Cuda各版本下载地址:https://developer.nvidia.com/cuda-toolkit-archive
Cuda安装
检查Cuda是否装好
nvcc 是 CUDA 的编译器工具,可以用来检查 CUDA 的版本信息。输入以下命令:
nvcc --version
如果 CUDA 安装成功,该命令会返回 CUDA 的版本信息:
cuda装好后可查看版本信息
二、设置Ollama环境变量
这里略去Ollama安装过程。
Ollama安装好后,为了让推理跑在GPU上,可以按照如下步骤 设置环境变量:
- 在“系统变量”中,点击“新建”按钮。
- 添加以下环境变量:
- 变量名:OLLAMA_GPU_LAYER
- 变量值:cuda
- 如果需要指定特定的 GPU,可以添加以下环境变量:
- 变量名:CUDA_VISIBLE_DEVICES
- 变量值:GPU的UUID(按编号有时找不到,所以使用UUID)
在控制台输入nvidia-smi -L,即可查看GPU的UUID
获取GPU的UUID
设置好后的效果如图:
设置环境变量,让Ollama调用指定GPU
三、验证是否跑在GPU上
在推理时使用Ollama ps 即可查看负载情况:
ollama ps
我的显存是12G。
使用8b模型推理时,GPU显存够用,所以是100% GPU。
使用14b模型推理时,为避免显存爆掉,系统会自动将一部分分给CPU运行。这里是6%CPU,94%GPU
查看负载
具体的分配可以看Log
ollamaLog路径
将Log内容贴在AI中进行分析
可能会遇到的问题
如果是先装了Ollama,再装cuda,可能会出现这种情况:
按照上面设置后,控制台使用Ollama ps 显示GPU是主要负载,但是任务管理器中看到的却是GPU没怎么跑,CPU占用很高。
解决办法是:重装一下Ollama。 或者在任务栏的Ollama图标上 右键点击Update即可自动重装并更新至新版本。
任务管理器查看GPU负载
参考文章:
Ollama 对GPU 支持信息: https://github.com/qianniucity/ollama-doc/blob/main/ollama/docs/Ollama%20%E5%AF%B9GPU%20%E6%94%AF%E6%8C%81%E4%BF%A1%E6%81%AF.md
更多推荐
所有评论(0)