2080ti*2,Ubuntu vllm+openweb-ui运行deepseek-r1
2080ti,可以用ollama运行deepseek-r1,qwen蒸馏版本。但ollama模型有压缩,生产环境还是用vllm推理原生模型更合适。1、安装vllm和modelscopepip install vllmmodelscope -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/ 2、下载deepseek-r1模型,并启动mkd
2080ti,可以用ollama运行deepseek-r1,qwen蒸馏版本。但ollama模型有压缩,生产环境还是用vllm推理原生模型更合适。
1、安装vllm和modelscope
pip install vllm modelscope -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/
2、下载deepseek-r1模型,并启动
mkdir deepseek-ai
mkdir deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B README.md --local_dir deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
启动模型
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager --dtype=half
2080ti不支持bf16,所以要加上“--dtype=half”
3、安装OpenWebUI
新开一个命令行界面,不要关闭vllm命令行界面。
基于miniconda,创建虚拟环境(请提前安装miniconda)
conda create -n open-webui python=3.11.8
4、激活环境
conda activate open-webui
5、安装openweb-ui
pip install open-webui -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/
6、配置环境变量
(1)关闭hf更新:
export HF_HUB_OFFLINE=1
(2)打开openai API:
export ENABLE_OPENAI_API=True
export OPENAI_API_BASE_URL=http://0.0.0.0:8000/v1
7、启动openwebui
open-webui serve
首次启动需要配置管理员账户、邮箱地址、密码
8、访问openwebui
浏览器打开:http://127.0.0.1:8080/
输入邮箱地址和密码,登录。
左上角选择DeepSeek-R1-Distill-Qwen-7B模型,就可以对话了。vllm的推理速度还是很不错的。
更多推荐
所有评论(0)