清晰易懂的Ollama安装配置教程从零开始到模型运行

Ollama是一个开源工具，允许用户在个人电脑上轻松运行各种大型语言模型(LLM)。它支持Windows、macOS和Linux系统，提供了简单的命令行界面来管理模型。

Tee xm

2154人浏览 · 2025-03-28 23:09:36

Tee xm · 2025-03-28 23:09:36 发布

Ollama是一款支持在本地运行大型语言模型的工具，它简化了模型的下载、安装和管理过程。本教程将从基础安装开始，逐步引导你完成Ollama的配置、模型下载和运行使用，即使是初学者也能轻松掌握。

一、Ollama简介与系统要求

什么是Ollama？

Ollama是一个开源工具，允许用户在个人电脑上轻松运行各种大型语言模型(LLM)。它支持Windows、macOS和Linux系统，提供了简单的命令行界面来管理模型。

系统要求

操作系统：Windows 10/11、macOS 10.15+或Linux（Ubuntu 18.04+等主流发行版）
硬件建议：
- CPU：现代多核处理器（Intel i5/Ryzen 5及以上）
- 内存：至少8GB（运行小模型），推荐16GB+
- 存储空间：至少20GB可用空间（大模型需要更多）
- GPU（可选）：NVIDIA显卡（显存4GB+可显著提升性能）

二、Ollama安装步骤

1. Windows系统安装

访问Ollama官网下载Windows安装包（OllamaSetup.exe）
双击安装包，按照向导完成安装（默认安装在C:\Users\username\AppData\Local\Programs\Ollama）
安装完成后，Ollama会自动启动服务（监听127.0.0.1:11434）
验证安装：打开命令提示符，输入ollama --help，应显示帮助信息

注意：默认模型存储在C盘，如需更改，请参阅"环境配置"部分

2. macOS系统安装

访问官网下载macOS版安装包（.dmg文件）
拖拽Ollama图标到Applications文件夹
首次运行需在终端执行以下命令以添加PATH：
```
export PATH=$PATH:~/.ollama/bin
```
验证安装：终端输入ollama --version

3. Linux系统安装

方法一：脚本安装（推荐）

curl -fsSL https://ollama.com/install.sh | sh

安装完成后会自动启动服务

方法二：手动安装

sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

配置为系统服务：

sudo tee /etc/systemd/system/ollama.service <<EOF
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3

[Install]
WantedBy=default.target
EOF

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

三、环境配置与优化

1. 修改模型存储位置（避免C盘空间不足）

Windows：
1. 右键"此电脑" → 属性 → 高级系统设置 → 环境变量
2. 新建系统变量：
  - 变量名：OLLAMA_MODELS
  - 变量值：新路径（如D:\Ollama\Models）
3. 重启Ollama服务

Linux/macOS：

export OLLAMA_MODELS="/path/to/new/location"
# 永久生效可添加到~/.bashrc或~/.zshrc

2. 其他重要环境变量

变量名	作用	推荐值
`OLLAMA_HOST`	服务监听地址	`0.0.0.0`（允许局域网访问）
`OLLAMA_PORT`	服务端口	`11434`（默认）
`OLLAMA_KEEP_ALIVE`	模型内存驻留时间	`24h`（提高响应速度）
`OLLAMA_NUM_PARALLEL`	并发请求数	根据CPU核心数调整
`OLLAMA_DEBUG`	调试模式	`1`（需要排查问题时）

3. GPU加速配置（如有NVIDIA显卡）

安装最新NVIDIA驱动和CUDA Toolkit
验证CUDA安装：
```
nvcc --version
```
Ollama会自动检测并使用GPU加速

四、模型下载与管理

1. 查看可用模型

访问Ollama模型库或命令行查看：

ollama list

2. 下载模型

常用命令格式：

ollama pull <模型名>:<版本>

示例：

ollama pull llama2         # 下载最新版Llama2
ollama pull deepseek-r1:7b # 下载DeepSeek R1 7B版本

常见模型推荐：

通用模型：llama2、mistral
中文优化：deepseek-r1、qwen
小巧高效：phi、gemma:2b

3. 模型管理命令

命令	功能	示例
`ollama list`	列出已下载模型	-
`ollama show <模型>`	显示模型详情	`ollama show llama2`
`ollama rm <模型>`	删除模型	`ollama rm llama2`
`ollama cp <源> <目标>`	复制模型	`ollama cp llama2 my-llama2`

4. 离线安装模型（网络受限时）

从HuggingFace等平台下载GGUF格式模型文件
创建Modelfile：
```
FROM ./model.gguf
```
创建本地模型：
```
ollama create my-model -f Modelfile
```

五、运行与使用模型

1. 基础运行

ollama run <模型名>

示例：

ollama run llama2

运行后进入交互模式，可直接输入问题或指令

2. 退出交互模式

输入以下命令之一：

/bye
或按Ctrl+D

3. 直接执行单次命令

ollama run llama2 "用Python写一个快速排序算法"

4. API调用

Ollama提供REST API（默认11434端口）：

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "为什么天空是蓝色的？"
}'

5. 与Python集成

安装ollama Python包：

pip install ollama

示例代码：

import ollama

response = ollama.generate(model='llama2', prompt='解释量子力学基础')
print(response['response'])

六、实用技巧与问题解决

1. 性能优化

小内存设备：选择参数较少的模型（如deepseek-r1:1.5b）
加速响应：设置OLLAMA_KEEP_ALIVE=24h保持模型加载
多GPU：设置CUDA_VISIBLE_DEVICES指定GPU

2. 常见问题解决

端口冲突：修改OLLAMA_PORT环境变量
下载中断：重新执行ollama pull命令会继续下载
内存不足：
- 尝试更小模型
- 增加系统虚拟内存
- 设置OLLAMA_GPU_OVERHEAD（仅限NVIDIA显卡）

3. 进阶使用

自定义模型参数：创建Modelfile设置temperature、top_p等
模型微调：基于现有模型进行LoRA微调
Web UI：部署Open WebUI等前端界面

七、学习资源推荐

通过本教程，你应该已经掌握了Ollama的安装、配置和基本使用方法。现在可以开始探索各种语言模型的强大能力了！建议从较小的模型开始尝试，逐步熟悉后再挑战更大的模型。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

从云端到终端，从大模型到具身智能：众智FlagOS 1.5引领开放计算生态迈向成熟

讯飞AI开发者社区

什么是 MCPo？

它通过标准化 RESTful API 接口，让复杂的工具变得易于使用，并支持与大语言模型（LLM）代理和应用程序的无缝交互。MCPo 的核心在于其代理功能，它能够动态发现 MCP 工具并生成 REST API 端点，同时提供人性化的 OpenAPI 文档。随着人工智能工具需求的增长，MCPo 有望成为连接 AI 工具与标准化接口的重要桥梁，为开发者提供更高效、更安全的解决方案。图像内容支持：现在可

讯飞AI开发者社区

杨立昆团队将世界模型塞进了代码生成，AI也能一边写一边“调试”代码了

FAIR发布了全球首个代码世界模型（CWM），把“世界模型”（World Model）用在了代码生成上。Meta旗下的人工智能研究部门FAIR（Facebook AI Research）发布了全球首个代码世界模型（CWM），把“世界模型”（World Model）用在了代码生成上。传统的代码模型，通过看海量的代码，学到的是“别人一般这么写”。而CWM的思路，是通过模拟代码运行时内部发生的一切，预测