设置Ollama模型跑在GPU上

Ollama 对GPU 支持信息: https://github.com/qianniucity/ollama-doc/blob/main/ollama/docs/Ollama%20%E5%AF%B9GPU%20%E6%94%AF%E6%8C%81%E4%BF%A1%E6%81%AF.md。按照上面设置后，控制台使用Ollama ps 显示GPU是主要负载，但是任务管理器中看到的却是GPU没怎么跑

马立杰

2724人浏览 · 2025-02-11 18:26:56

马立杰 · 2025-02-11 18:26:56 发布

一、安装CudaToolkit

查看当前显卡驱动中的cuda版本

有两种方法：

1. 使用控制台命令查看。

nvidia-smi 是 NVIDIA 提供的用于监控 GPU 状态的工具，也可以用来检查 CUDA 的版本。

该命令会显示 GPU 的状态和性能信息，包括驱动程序版本和 CUDA 版本。

nvidia-smi

查看显卡驱动的cuda版本

2.通过nvdia控制面板查看。桌面右键打开nvdia控制面板

查看显卡驱动的cuda版本

安装CudaToolkit

CudaToolkit版本 不能大于 上面的显卡Cuda版本。

Cuda各版本下载地址：https://developer.nvidia.com/cuda-toolkit-archive

Cuda安装

检查Cuda是否装好

nvcc 是 CUDA 的编译器工具，可以用来检查 CUDA 的版本信息。输入以下命令：

nvcc --version

如果 CUDA 安装成功，该命令会返回 CUDA 的版本信息：

cuda装好后可查看版本信息

二、设置Ollama环境变量

这里略去Ollama安装过程。

Ollama安装好后，为了让推理跑在GPU上，可以按照如下步骤设置环境变量：

在“系统变量”中，点击“新建”按钮。
添加以下环境变量：
变量名：OLLAMA_GPU_LAYER
变量值：cuda

如果需要指定特定的 GPU，可以添加以下环境变量：
变量名：CUDA_VISIBLE_DEVICES
变量值：GPU的UUID（按编号有时找不到，所以使用UUID）

在控制台输入nvidia-smi -L，即可查看GPU的UUID

获取GPU的UUID

设置好后的效果如图：

设置环境变量，让Ollama调用指定GPU

三、验证是否跑在GPU上

在推理时使用Ollama ps 即可查看负载情况：

ollama ps

我的显存是12G。

使用8b模型推理时，GPU显存够用，所以是100% GPU。

使用14b模型推理时，为避免显存爆掉，系统会自动将一部分分给CPU运行。这里是6%CPU，94%GPU

查看负载

具体的分配可以看Log

ollamaLog路径

将Log内容贴在AI中进行分析

可能会遇到的问题

如果是先装了Ollama，再装cuda，可能会出现这种情况：

按照上面设置后，控制台使用Ollama ps 显示GPU是主要负载，但是任务管理器中看到的却是GPU没怎么跑，CPU占用很高。

解决办法是：重装一下Ollama。或者在任务栏的Ollama图标上右键点击Update即可自动重装并更新至新版本。

任务管理器查看GPU负载

参考文章：

Ollama 对GPU 支持信息: https://github.com/qianniucity/ollama-doc/blob/main/ollama/docs/Ollama%20%E5%AF%B9GPU%20%E6%94%AF%E6%8C%81%E4%BF%A1%E6%81%AF.md

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

cover

深度学习算法：开启智能时代的钥匙

讯飞AI开发者社区

cover

目标检测数据集第017期-基于yolo标注格式的垃圾分类检测数据集(含免费分享)

讯飞AI开发者社区

cover

【人工智能】提示词进阶：用“思维链（CoT）”让大模型更擅长逻辑推理

讯飞AI开发者社区

所有评论(0)

查看更多评论

马立杰

已为社区贡献1条内容