2080ti,可以用ollama运行deepseek-r1,qwen蒸馏版本。但ollama模型有压缩,生产环境还是用vllm推理原生模型更合适。

1、安装vllm和modelscope

pip install vllm  modelscope -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/ 

2、下载deepseek-r1模型,并启动

mkdir deepseek-ai

mkdir deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B README.md --local_dir deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

启动模型

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager --dtype=half

2080ti不支持bf16,所以要加上“--dtype=half”

 

3、安装OpenWebUI

新开一个命令行界面,不要关闭vllm命令行界面。

基于miniconda,创建虚拟环境(请提前安装miniconda)

conda create -n open-webui python=3.11.8

4、激活环境

conda activate open-webui

5、安装openweb-ui

pip install open-webui -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/

6、配置环境变量

(1)关闭hf更新:

export HF_HUB_OFFLINE=1

(2)打开openai API:

export ENABLE_OPENAI_API=True
export OPENAI_API_BASE_URL=http://0.0.0.0:8000/v1

7、启动openwebui

open-webui serve

首次启动需要配置管理员账户、邮箱地址、密码

8、访问openwebui

浏览器打开:http://127.0.0.1:8080/

输入邮箱地址和密码,登录。

 

左上角选择DeepSeek-R1-Distill-Qwen-7B模型,就可以对话了。vllm的推理速度还是很不错的。

 

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐