【亲测】Ollama + DeepSeek-R1 本地大模型安装教程

Ollama 支持直接拉取社区量化版模型（推荐。Ollama 默认提供 HTTP API（端口。，无需 Docker，分步操作保证可用。的详细安装教程，适用于。

一起喝芬达2010

1143人浏览 · 2025-04-21 10:04:19

一起喝芬达2010 · 2025-04-21 10:04:19 发布

以下是 Ollama + DeepSeek-R1 本地模型 的详细安装教程，适用于 macOS/Linux/Windows，无需 Docker，分步操作保证可用。

1. 安装 Ollama

macOS

# 一键安装（自动识别 Apple Silicon 或 Intel）
curl -fsSL https://ollama.com/install.sh | sh

Linux

# 官方脚本安装
curl -fsSL https://ollama.com/install.sh | sh

# 或手动安装（Ubuntu/Debian）
sudo apt install -y wget
wget https://ollama.com/download/ollama-linux-amd64 -O ollama
chmod +x ollama
sudo mv ollama /usr/local/bin/

Windows

直接下载安装包：Ollama Windows 版
安装后需将 ollama.exe 加入系统 PATH。

2. 下载 DeepSeek-R1 模型

Ollama 支持直接拉取社区量化版模型（推荐 4-bit 量化，平衡性能与内存占用）：

# 拉取模型（自动选择适合当前硬件的版本）
ollama pull deepseek-r1:7b-q4

# 验证模型
ollama list

输出示例：

NAME                SIZE    MODIFIED
deepseek-r1:7b-q4   4.2 GB  2 minutes ago

3. 运行模型测试

交互式对话

ollama run deepseek-r1:7b-q4

输入问题（如 你好，你能做什么？）测试模型响应。

命令行直接调用

ollama run deepseek-r1:7b-q4 "用中文解释量子计算"

4. 启用 GPU 加速（可选）

macOS（Metal）

Ollama 默认启用 Metal 加速，可通过以下命令验证：

export OLLAMA_MMETAL=1  # 确保 Metal 加速开启
ollama run deepseek-r1:7b-q4 --verbose  # 查看日志确认 GPU 使用

Linux（NVIDIA CUDA）

需先安装 NVIDIA 驱动，然后运行：

export OLLAMA_CUDA=1
ollama run deepseek-r1:7b-q4

5. 配置 API 服务

Ollama 默认提供 HTTP API（端口 11434），可直接调用：

本地 API 测试

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b-q4",
  "prompt": "如何学习深度学习？",
  "stream": false
}'

Python 调用示例

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={"model": "deepseek-r1:7b-q4", "prompt": "Python 的优缺点", "stream": False}
)
print(response.json()["response"])

6. 常见问题解决

问题 1：模型下载失败

原因：网络问题或 Ollama 服务未启动。

解决：

ollama serve &  # 确保服务在后台运行
export ALL_PROXY=http://127.0.0.1:7890  # 如有代理需设置

问题 2：内存不足

现象：崩溃或响应极慢。
解决：改用更低量化的模型（如 deepseek-r1:7b-q2）：
```
ollama pull deepseek-r1:7b-q2
```

问题 3：GPU 未启用

验证：

ollama run deepseek-r1:7b-q4 --verbose | grep "GPU"  # 查看日志

解决（Linux）：

sudo apt install nvidia-cuda-toolkit  # 安装 CUDA
export OLLAMA_CUDA=1

7. 进阶使用

自定义模型配置

编辑 ~/.ollama/models/manifests/registry.ollama.ai/library/deepseek-r1:7b-q4，调整参数如：

parameters:
  num_gpu_layers: 20  # 增加 GPU 计算层数

绑定到公网（谨慎操作）

通过 Nginx 反向代理（需 HTTPS）：

location /ollama {
    proxy_pass http://localhost:11434;
    proxy_set_header Host $host;
}

总结

步骤	命令/操作	说明
1. 安装 Ollama	`curl -fsSL https://ollama.com/install.sh	sh`
2. 下载模型	`ollama pull deepseek-r1:7b-q4`	推荐 4-bit 量化
3. 运行测试	`ollama run deepseek-r1:7b-q4`	交互式对话
4. API 调用	`curl http://localhost:11434/api/generate`	集成到应用

技术共进，成长同行——讯飞AI开发者社区

更多推荐

什么是人工智能大模型？

讯飞AI开发者社区

号课堂§2.2：声明范式

声明式语言——尤其是函数式语言和逻辑式语言——擅长基于数理逻辑的应用，如人工智能、符号处理、数据库、编译器等，对基于业务逻辑的、尤其是交互式或事件驱动型的应用就不那么得心应手了。命令式编程模拟电脑运算，是行动导向的，关键在于定义解法，即“怎么做”，因而算法是显性而目标是隐性的；声明式编程模拟人脑思维，是目标驱动的，关键在于描述问题，即“做什么”，因而目标是显性而算法是隐性的。”冒号娓娓道来，“除了