ollama 常用命令

一、基础操作命令

1. 下载模型(pull)

从 Ollama 模型仓库下载指定模型到本地(支持主流 LLM 如 Llama 2、Mistral、CodeLlama 等)。

ollama pull <模型名称:版本>  # 版本可选,默认最新
# 示例:下载 Llama 2 7B 版本(GPU/CPU 通用)
ollama pull llama2:7b
# 下载 Mistral 7B(优化版)
ollama pull mistral:7b-instruct
2. 运行模型(run)

启动模型的交互式对话或任务执行(最核心命令)。

ollama run <模型名称> [参数]
# 示例:启动 Llama 2 7B 聊天模式
ollama run llama2:7b
# 示例:指定参数(温度=0.7,最大输出500 token)
ollama run llama2:7b --temp 0.7 --max-tokens 500
3. 列出已下载模型(list)

查看本地已下载的所有模型及其版本。

ollama list
# 输出示例:
# llama2:7b       /Users/xxx/.ollama/models/llama2-7b.gguf
# mistral:7b-instruct /Users/xxx/.ollama/models/mistral-7b-instruct.gguf
4. 删除模型(rm)

从本地移除已下载的模型(释放磁盘空间)。

ollama rm <模型名称:版本>
# 示例:删除 Llama 2 7B 模型
ollama rm llama2:7b
5. 查看帮助(help)

获取所有命令的详细说明或特定命令的帮助。

ollama help          # 查看全局帮助
ollama run --help    # 查看 run 命令的具体参数

二、高级控制命令

1. 指定硬件加速(–gpu/–cpu)

强制模型使用 GPU 或 CPU 运行(默认自动选择)。

# 强制使用 GPU(仅 NVIDIA 显卡支持 CUDA 加速)
ollama run llama2:7b --gpu
# 强制使用 CPU(适合无 GPU 环境)
ollama run llama2:7b --cpu
2. 后台运行(–detach)

将模型运行在后台(适用于服务化部署或长时间任务)。

# 启动模型并后台运行(返回进程 ID)
ollama run llama2:7b --detach
# 终止后台进程(需结合进程 ID)
kill <PID>
3. 批量推理(generate)

非交互式生成文本(通过输入文件或管道传递提示)。

# 从文件读取提示并生成输出(输出到文件)
ollama generate llama2:7b < input.txt > output.txt
# 或通过管道传递
echo "解释量子力学" | ollama generate llama2:7b
4. 查看日志(logs)

调试时查看模型运行的详细日志(如错误信息、性能指标)。

ollama logs [模型名称]  # 不指定模型则查看所有日志
# 示例:查看最近一次运行 llama2 的日志
ollama logs llama2:7b

三、参数调优命令

Ollama 支持通过参数调整模型输出风格和行为,常见参数如下(可在 run 或 generate 命令中使用):
|参数|说明|示例值|
|–temp|温度参数(控制随机性,0~1,越低越确定)|–temp 0.5|
|–top-p|核采样参数(保留概率最高的 token 集合,总和≤p)|–top-p 0.9|
|–max-tokens|最大输出 token 数(防止无限生成)|–max-tokens 300|
|–moderate|开启内容安全过滤(过滤敏感/违规内容)|–moderate|
|–repeat-penalty|重复惩罚系数(值越大,重复内容越少)|–repeat-penalty 1.5|

四、典型使用场景示例

  1. 快速测试模型:
ollama pull llama2:7b && ollama run llama2:7b
  1. 生成代码(指定温度):
ollama run codellama:7b --temp 0.3 --max-tokens 200 <<EOF
写一个 Python 函数计算斐波那契数列前10项
EOF
  1. 清理磁盘空间:
ollama list  # 查看已下载模型
ollama rm llama2:7b  # 删除不需要的模型
Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐