使用 vLLM 部署 bge-m3 / Qwen3-32B 模型（魔搭模型部署）

是一个高效的大型语言模型推理和服务系统，具有低延迟、高吞吐量的特点。支持 HuggingFace 格式的模型，并且可以通过简单的命令行启动服务。

packmak1r

3429人浏览 · 2025-05-14 14:20:37

packmak1r · 2025-05-14 14:20:37 发布

vLLM说明

vLLM 是一个高效的大型语言模型推理和服务系统，具有低延迟、高吞吐量的特点。支持 HuggingFace 格式的模型，并且可以通过简单的命令行启动服务。

说明

CPU内存就不说了，Qwen3-32B大概需要40G以上的显存，m3为小模型，普通显卡即可

本次部署的服务器为腾讯云16核160G，H20显卡（96G），算力44+TFlops SP

基础环境：Driver 525.105.17，Python3.8，CUDA12，cuDNN8

部署

安装vllm

pip install vllm

使用 ModelScope（魔搭）模型

# 用大陆的源，并且可以让 vLLM 自动从modelscope下载并加载模型
export VLLM_USE_MODELSCOPE=True

pip install modelscope

modelscope地址

Qwen/Qwen3-32B

BAAI/bge-m3

用vllm启动m3

vllm serve BAAI/bge-m3 \
    --gpu-memory-utilization 0.34 \
    --port 10010 \
    --host 0.0.0.0 &

vllm启动q3-32b，32b需要更多的显卡内存

vllm serve qwen/Qwen3-32B \
    --gpu-memory-utilization 0.88 \
    --port 10011 \
    --host 0.0.0.0 &

32b稍微慢一点，启动成功后使用 BAAI/bge-m3 实现嵌入生成；使用 Qwen3-32B 实现文本生成任务。

也可以加载到本地服务运行

添加到系统运行服务器中启动

vim /etc/systemd/system/qwen.service

[Unit]
Description=qwen3-32b
After=network.target

[Service]
Type=simple
Environment=VLLM_USE_MODELSCOPE=True
ExecStart=/usr/local/bin/vllm serve Qwen/Qwen3-32B --gpu-memory-utilization 0.88 --port 10011 --host 0.0.0.0
WorkingDirectory=/data/Qwen3-32B
User=root
Restart=on-failure
RestartSec=10
Environment=PYTHONUNBUFFERED=1

[Install]
WantedBy=multi-user.target

重新加载 systemd 并启动服务

systemctl daemon-reexec
systemctl daemon-reload
systemctl enable qwen
systemctl start qwen

#查看运行状态
systemctl status qwen
 
#查看输出日志（实时）
journalctl -fu qwen
 
#如果失败，查看最近日志
journalctl -xeu qwen