2080ti*2，Ubuntu vllm+openweb-ui运行deepseek-r1

2080ti，可以用ollama运行deepseek-r1，qwen蒸馏版本。但ollama模型有压缩，生产环境还是用vllm推理原生模型更合适。1、安装vllm和modelscopepip install vllmmodelscope -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/ 2、下载deepseek-r1模型，并启动mkd

深圳dengdi

897人浏览 · 2025-02-16 00:02:27

深圳dengdi · 2025-02-16 00:02:27 发布

2080ti，可以用ollama运行deepseek-r1，qwen蒸馏版本。但ollama模型有压缩，生产环境还是用vllm推理原生模型更合适。

1、安装vllm和modelscope

pip install vllm modelscope -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

2、下载deepseek-r1模型，并启动

mkdir deepseek-ai

mkdir deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B README.md --local_dir deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

启动模型

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager --dtype=half

2080ti不支持bf16，所以要加上“--dtype=half”

3、安装OpenWebUI

新开一个命令行界面，不要关闭vllm命令行界面。

基于miniconda，创建虚拟环境（请提前安装miniconda）

conda create -n open-webui python=3.11.8

4、激活环境

conda activate open-webui

5、安装openweb-ui

pip install open-webui -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

6、配置环境变量

（1）关闭hf更新：

export HF_HUB_OFFLINE=1

（2）打开openai API：

export ENABLE_OPENAI_API=True
export OPENAI_API_BASE_URL=http://0.0.0.0:8000/v1

7、启动openwebui

open-webui serve

首次启动需要配置管理员账户、邮箱地址、密码

8、访问openwebui

浏览器打开：http://127.0.0.1:8080/

输入邮箱地址和密码，登录。

左上角选择DeepSeek-R1-Distill-Qwen-7B模型，就可以对话了。vllm的推理速度还是很不错的。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

Python学习——安装配置python环境+入门_python安装

Python 是一种广泛使用的高级编程语言，由 Guido van Rossum 于 1991 年首次发布。它设计的哲学强调代码的可读性、简洁和易用。Python 支持多种编程范式，包括面向对象、结构化编程以及功能编程。这使得 Python 成为数据科学、Web 开发、自动化测试、人工智能等多个领域的首选语言。Python 的语法简单且易学，即使你是编程新手，也能在短时间内掌握并开始编写程序。Py