Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试

本文介绍了使用Docker部署Qwen3MOE大模型并测试性能的过程。由于CPU不支持AVX512指令集，改用AVX2版本的ktransformers镜像。通过Docker容器运行模型，详细说明了启动命令和参数配置，包括模型路径、优化配置等。重点测试了模型响应性能，结果显示预填充阶段速度为58.34 tokens/s，解码阶段为19.09 tokens/s，揭示了模型在不同处理阶段的性能特征，为优

Gq.转

1354人浏览 · 2025-06-07 16:19:44

Gq.转 · 2025-06-07 16:19:44 发布

docker运行Ktransformers部署Qwen3MOE模型实战及性能测试

最开始拉取ktransformers:v0.3.1-AVX512版本，发现无论如何都启动不了大模型，后来发现是cpu不支持avx512指令集。

由于本地cpu不支持amx指令集，因此下载avx2版本镜像：

1.下载docker镜像并运行


docker pull approachingai/ktransformers:v0.3.1-AVX2
docker run -it --gpus all --privileged --shm-size 64g --name ktrans --network=host -v /home/xugq/models/:/models approachingai/ktransformers:v0.3.1-AVX512 /bin/bash

2.确定挂载卷并进入容器

通过该命令查看挂载卷：

docker inspect ktrans | grep -A 10 "Mounts"

执行结果：

 "Mounts": [
            {
                "Type": "bind",
                "Source": "/home/xugq/models/Qwen3-30B-A3B-GGUF",
                "Destination": "/Qwen3-30B-A3B-GGUF",
                "Mode": "",
                "RW": true,
                "Propagation": "rprivate"
            }
        ],
        "Config": {

执行以下命令进入容器内部：

docker exec -it ktrans bash

3.启动qwen3-moe模型

执行以下代码启动Qwen 3 MoE ：（注意model_path文件路径是容器内部的挂载路径，因为是在容器内部启动命令）

#普通指令集
python ktransformers/server/main.py --architectures Qwen3MoeForCausalLM --model_path /Qwen3-30B-A3B-GGUF --gguf_path /Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf --optimize_config_path ktransformers/optimize/optimize_rules/Qwen3Moe-serve.yaml --backend_type balance_serve --port 8999

#支持amx指令集
python ktransformers/server/main.py --architectures Qwen3MoeForCausalLM --model_path <model_dir> --gguf_path <gguf_dir> --optimize_config_path ktransformers/optimize/optimize_rules/Qwen3Moe-serve-amx.yaml --backend_type balance_serve

一些可添加的额外参数参数：

--chunk_size: Maximum number of tokens processed in a single run by the engine.
--chunk_size：引擎在一次运行中处理的最大令牌数。
--cache_lens: Total length of kvcache allocated by the scheduler. All requests share a kvcache space corresponding to 32768 tokens, and the space occupied will be released after the requests are completed.
--cache_透镜 ：调度程序分配的 kvcache 的总长度。所有请求共享一个 kvcache 空间，对应 32768 个 token，请求完成后释放所占用的空间。
--backend_type: balance_serve is a multi-concurrency backend engine introduced in version v0.2.4. The original single-concurrency engine is ktransformers.
--backend_type：balance_serve 是 v0.2.4 中引入的多并发后端引擎。最初的单并发引擎是 ktransformers。
--max_batch_size: Maximum number of requests (prefill + decode) processed in a single run by the engine. (Supported only by balance_serve)
--max_batch_size：引擎在一次运行中处理的最大请求数（预填充+解码）。（仅支持 balance_serve）

4.调用模型测试性能

访问服务器测试响应速度：

curl -X POST http://localhost:8999/v1/chat/completions \
  -H "accept: application/json" \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {"role": "user", "content": " <no_think>贵阳市有什么美丽的景点可以去旅游？"}
    ],
    "model": "Qwen3-30B-A3B",
    "temperature": 0.3,
    "top_p": 1.0,
    "stream": false
}'

收到回复：
请添加图片描述

查看服务器后台日志：
请添加图片描述

分析关键性能指标：

Performance(T/s): prefill 58.34309968405152, decode 19.089551765073455. Time(s): tokenize 0.023163557052612305, prefill 0.37707972526550293, decode 26.035184383392334

Prefill（预填充）阶段：
- 速度：58.34 tokens/s
- 耗时：0.38 秒
- 说明：处理用户输入提示词（prompt）的速度，该阶段并行计算能力强，吞吐量高。
Decode（解码）阶段：
- 速度：19.09 tokens/s
- 耗时：26.04 秒
- 说明：逐token生成回复内容的速度，受自回归生成特性限制，吞吐量较低。
Tokenizer（分词）阶段：
- 耗时：0.023 秒
- 耗时：26.04 秒
- 说明：逐token生成回复内容的速度，受自回归生成特性限制，吞吐量较低。
Tokenizer（分词）阶段：
- 耗时：0.023 秒
- 说明：将文本转换为模型输入token的时间，通常不是瓶颈。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

1747张YOLO标注奶牛水牛识别数据集：精准标注跨场景动物检测模型训练专用计算机视觉数据集，助力智慧农业与畜牧业AI算法研发

讯飞AI开发者社区

YOLOv8【卷积创新篇·第25节】Capsule Network胶囊卷积网络：让检测器拥有“空间想象力”！

讯飞AI开发者社区

YashanDB在医疗行业的应用与机遇

随着医疗行业数据规模的持续扩展和智能医疗应用的深化，数据库系统的性能和可靠性成为医疗信息化的核心竞争力。未来，随着医疗场景对人工智能、大数据实时分析等技术的不断融合，YashanDB将持续深化HTAP能力，增强分布式协作与资源整合能力，通过不断优化系统性能和安全保障，推动医疗行业数据管理水平的全面提升，为智慧医疗服务的广泛应用奠定坚实基础。YashanDB在医疗行业中，基于强大的逻辑架构，实现了客