离线部署AI大模型—[简单易操作]

1、上传模型gguf文件到 /opt 目录，同时在/opt 下新建ollama、models两个目录，分别用于存放ollama-linux-amd64.tgz安装包、及后面模型运行起来后存放的模型文件。2、根据显卡选择合适的模型，RTX3080显存12G，RTX3090显存24G，下面我列举的Deepseek所需配置，Qwen3跟这差不多。:这里下载后，大家可以通过压缩工具打开，看看里面的内容，里

喵喵爱自由

541人浏览 · 2025-05-25 12:23:14

喵喵爱自由 · 2025-05-25 12:23:14 发布

离线部署AI大模型—[简单易操作]

前置条件

1、部署大模型，需要服务器安装好显卡驱动，可以通过nvidia-smi 命令进行查看。

nvidia-smi

2、根据显卡选择合适的模型，RTX3080显存12G，RTX3090显存24G，下面我列举的Deepseek所需配置，Qwen3跟这差不多。

模型版本	显存大小
1.5B	不需要显卡
7-8B	8G
14B	16G
30B	24G
70B	多卡并行80G 以上

一、准备Ollama和模型文件

1、Ollama下载有三种方式，具体可以参考这个文章
https://blog.csdn.net/anningyue/article/details/145484113

2、这里演示离线下载，需TZ访问下面网址下载
https://github.com/ollama/ollama/releases
（ps1:这里下载后，大家可以通过压缩工具打开，看看里面的内容，里面会有bin 和lib 两个目录，bin下面有ollama可执行文件）
在这里插入图片描述
3、下载模型文件

访问网址 https://hf-mirror.com/
下载

4、这里演示使用Qwen3:14B
https://hf-mirror.com/Qwen/Qwen3-14B-GGUF/resolve/main/Qwen3-14B-Q4_K_M.gguf

二、部署Ollama

1、上传模型gguf文件到 /opt 目录，同时在/opt 下新建ollama、models两个目录，分别用于存放ollama-linux-amd64.tgz安装包、及后面模型运行起来后存放的模型文件
2、进入到 /opt/ollama 目录，使用命令进行解压

sudo tar -C /usr -xzf ollama-linux-amd64.tgz

（ps2：这里的解压命令，是将压缩包中可执行文件ollama (详见ps1)，放到/usr/bin/ 下面）

3、新增 / 编辑配置文件vim /etc/systemd/system/ollama.service
添加以下内容

[Unit]
Description=Ollama Service
After=network-online.target


[Service]
ExecStart=/usr/bin/ollama serve
User=root			##填运行ollama的用户,可新建专门用户,这里简化直接root
Group=root			##用户的分组,直接root
Restart=always
RestartSec=3
Environment="PATH=$PATH"
Environment="OLLAMA_MODELS=/opt/models"		##路径填写模型运行起来后存放的位置(与步骤1中新建的models目录位置对应上)
Environment="CUDA_VISIBLE_DEVICES=0,1,2"
##CUDA_VISIBLE_DEVICES填写Ollam运行起来后调用的GPU资源，序号从0开始,只有一张卡则只填写0
Environment="OLLAMA_HOST=0.0.0.0:11434"		##配置后局域网内可通过IP调用ollama的API
##GPU负载均衡和模型常驻配置，用于有多张显卡时负载GPU资源
Environment="OLLAMA_SCHED_SPREAD=1"
Environment="OLLAMA_KEEP_ALIVE=-1"

[Install]
WantedBy=default.target

4、重新加载ollama.service配置文件，启动ollama，并查看服务状态

systemctl daemon-reload
systemctl start ollama
systemctl status ollama

服务状态 active (running) 即为正常

三、通过Ollama启动模型

1、在 /opt 目录下（与模型gguf文件同级），创建modelfile文件并编辑

touch modelfile && vi modelfile

添加以下内容

FROM ./Qwen3-14b.gguf		##改成gguf模型文件名称

2、启动模型并查看

ollama create <取名:qwen14b> -f modelfile

通过ollama lis 可以查看启动模型

四、测试运行

ollama run <模型名称> “请写一个java脚本”

这里可另开窗口，使用nvidia-smi 命令查看GPU使用情况

⚠️前面ollama.service配置文件中，已经配置了ollama的环境变量，只要在局域网内，大家可以通过可视化工具，直接调用API使用
客户端调用工具推荐chatbox,LMstudio等。如果想用浏览器调用API来使用，可以用open-webui

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方