Qwen3大模型本地部署及Python调用指南

阿里开源Qwen3系列大模型全线发布，在代码、数学等基准测试中表现优异。文章介绍了通过Ollama（需≥0.6.6版本）快速本地部署Qwen3模型的方法，包括模型选择、显存占用分析和推理速度测试。特别说明该系列支持关闭思考模式（添加/no_think）以提升效率。同时展示了Python调用技巧：使用ollama库实现文本生成/对话任务，以及基于pydantic-ai构建支持函数调用的智能体应用。文

学习AI大模型

1361人浏览 · 2025-05-28 14:49:30

学习AI大模型 · 2025-05-28 14:49:30 发布

1 简介

阿里开源的Qwen3系列大模型全线发布：

其模型能力，按照官方的介绍，直接对标DeepSeek-R1、o1、o3-mini、Grok-3、Gemini-2.5-Pro等顶级大模型，在代码、数学、通用能力等基准测试中表现十分优异，成为开源大模型领域新的翘楚：

今天的文章中，我们就来介绍如何快速完成对Qwen3系列模型的本地部署，并通过Python快捷调用模型进行推理。

2 Qwen3系列模型的本地部署

Qwen3系列模型支持常见的各种主流部署工具，如SGLang、vLLM、Ollama、LMStudio、llama.cpp等，我们以其中使用起来最为方便的Ollama为例（注意Ollama版本需要大于等于0.6.6）：

访问Ollama官网中的Qwen3模型主页（ https://ollama.com/library/qwen3 ），可以看到众多参数类型的可用模型：

根据你的硬件算力，选择合适参数量的模型及量化版本，我的显卡是4090，显存达到24G，因此最大可运行32B参数量的模型，以Qwen3系列模型中官方着重介绍的MOE模型qwen3:30b-a3b为例：

拉取模型文件

ollama run qwen3:30b-a3b

ollama终端中临时运行模型

ollama run qwen3:30b-a3b --verbose

加载qwen3:30b-a3b模型对应的显存占用情况：

模型推理速度参考：

非思考模式

值得一提的是，Qwen3系列模型支持关闭思考模式，我们可以在实际任务中，针对较简单场景省去思考的过程，直接输出内容，降低推理耗时（在输入的问题末尾添加/no_think即可）：

3 通过Python调用本地部署的Qwen3模型

在上文基础上，接下来我们进一步展示如何在Python中高效调用已部署的本地Qwen3模型：

3.1 常规内容生成及对话任务

最直接的方式，我们可以使用Ollama官方的Python库来快捷实现常规对话：

安装ollama库

pip install ollama

列出可用模型

文本生成任务

文本生成任务（关闭思考）

对话任务

对话任务（流式）

3.2 Agent任务

Qwen3系列模型支持函数调用，我们可以基于它快速开发各种智能体功能，以我常用的pydantic-ai为例：

安装pydantic-ai相关最小依赖库

pip install "pydantic-ai-slim[openai]"

基于pydantic-ai快速构建智能体

在pydantic-ai中，我们可以直接使用兼容openai模型的形式，对接已通过Ollama部署的模型，非常的高效方便😉，：

更多参考资料：

https://ollama.com/library/qwen3
https://github.com/ollama/ollama-python
https://ai.pydantic.dev/
https://github.com/pydantic/pydantic-ai

以上就是本文的全部内容，欢迎在评论区与我们进行讨论~

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，