截至2025年3月,Ollama作为本地大模型部署工具,支持多种免费开源模型的部署和运行。以下是当前支持的主流模型及部署要点:

一、Ollama官方模型库支持的模型
Ollama官方模型库(Ollama Library)提供了丰富的预训练模型,涵盖不同参数规模和领域:

Llama系列

Llama 2:Meta开源的7B至70B参数模型,支持聊天、编程等场景,适合本地CPU或GPU部署。

Llama 3:更新的版本,支持更高精度的FP16量化格式(需转换为GGUF格式后导入)。

CodeLlama:专为代码生成优化的衍生模型,支持编程语言理解和生成。

阿里通义系列

Qwen2:阿里云开源的0.5B至7B参数模型,适合中文对话和任务处理,可通过ollama run qwen2直接运行。

Qwen2.5:升级版模型,支持更高精度量化(如Q4_K_M)。

Mistral系列

Mistral 7B:高效的小参数模型,适合资源有限的本地环境,支持多轮对话和复杂推理。

Mixtral 8x7B:混合专家模型(MoE),性能接近更大参数模型,但资源占用更低。

其他热门模型

Phi-3(微软):轻量级模型,适合移动端或低配置设备。

Gemma(谷歌):基于Gemini架构的轻量化模型,支持多语言任务。

Dolphin-Mixtral:经过伦理对齐的模型,适用于安全敏感场景。

二、从Hugging Face导入的社区模型
Ollama支持从Hugging Face Hub直接拉取社区提供的GGUF量化模型,扩展性更强:

GGUF格式模型

通过命令ollama run hf.co/{用户}/{仓库}:{量化标签}直接运行,例如:

bash
复制
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M
支持多种量化方案(如Q4_K_M、Q8_0等),平衡模型精度与推理效率。

自定义模型导入

若模型未预置在官方库中,可通过编写Modelfile配置文件导入本地GGUF文件:

bash
FROM ./Llama-3-FP16.gguf
ollama create my-llama3 -f Modelfile
支持PyTorch/Safetensors模型转换为GGUF格式后部署。

三、模型部署与运行要点
硬件适配

CPU部署:推荐使用量化模型(如Q4_K_M),需确保内存充足(例如7B模型需8GB以上内存)。

GPU加速:通过配置CUDA_VISIBLE_DEVICES环境变量指定多卡并行推理。

部署方式

Docker部署:一键启动服务,支持无GPU环境:

bash
docker run -d -p 11434:11434 --name ollama ollama/ollama
裸机部署:通过脚本或二进制文件安装,支持Linux/Windows/macOS17。

交互方式

命令行对话:ollama run <模型名>启动交互式对话39。

API调用:通过HTTP接口(端口11434)集成到Python或JavaScript应用,兼容OpenAI SDK格式。

四、模型选择建议
入门推荐:Qwen2(0.5B)或TinyLlama(1.1B),适合低配置环境快速体验。

高性能需求:Mixtral 8x7B或Llama 3,需配备高性能GPU和多核CPU。

中文场景:优先选择Qwen系列,针对中文优化效果更佳。

五、注意事项
模型存储路径:默认存储位置可修改(如Windows通过环境变量OLLAMA_MODELS调整),避免占用系统盘空间。

版本更新:定期通过ollama pull或脚本更新模型和工具版本。

合规性:部分模型需遵循开源协议(如Llama系列需申请Meta许可)。

如需完整模型列表或部署细节,可访问Ollama官方库

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐