1 简介

阿里开源的Qwen3系列大模型全线发布:

 

其模型能力,按照官方的介绍,直接对标DeepSeek-R1、o1、o3-mini、Grok-3、Gemini-2.5-Pro等顶级大模型,在代码、数学、通用能力等基准测试中表现十分优异,成为开源大模型领域新的翘楚:

 

今天的文章中,我们就来介绍如何快速完成对Qwen3系列模型的本地部署,并通过Python快捷调用模型进行推理。

2 Qwen3系列模型的本地部署

Qwen3系列模型支持常见的各种主流部署工具,如SGLangvLLMOllamaLMStudiollama.cpp等,我们以其中使用起来最为方便的Ollama为例(注意Ollama版本需要大于等于0.6.6):

 

访问Ollama官网中的Qwen3模型主页( https://ollama.com/library/qwen3 ),可以看到众多参数类型的可用模型:

 

根据你的硬件算力,选择合适参数量的模型及量化版本,我的显卡是4090,显存达到24G,因此最大可运行32B参数量的模型,以Qwen3系列模型中官方着重介绍的MOE模型qwen3:30b-a3b为例:

  • 拉取模型文件

ollama run qwen3:30b-a3b

 

  • ollama终端中临时运行模型

ollama run qwen3:30b-a3b --verbose

加载qwen3:30b-a3b模型对应的显存占用情况:

 

模型推理速度参考:

 

  • 非思考模式

值得一提的是,Qwen3系列模型支持关闭思考模式,我们可以在实际任务中,针对较简单场景省去思考的过程,直接输出内容,降低推理耗时(在输入的问题末尾添加/no_think即可):

 

3 通过Python调用本地部署的Qwen3模型

在上文基础上,接下来我们进一步展示如何在Python中高效调用已部署的本地Qwen3模型:

3.1 常规内容生成及对话任务

最直接的方式,我们可以使用Ollama官方的Python库来快捷实现常规对话:

  • 安装ollama

pip install ollama
  • 列出可用模型

 

  • 文本生成任务

 

  • 文本生成任务(关闭思考)

 

  • 对话任务

 

  • 对话任务(流式)

 

3.2 Agent任务

Qwen3系列模型支持函数调用,我们可以基于它快速开发各种智能体功能,以我常用的pydantic-ai为例:

  • 安装pydantic-ai相关最小依赖库

pip install "pydantic-ai-slim[openai]"
  • 基于pydantic-ai快速构建智能体

pydantic-ai中,我们可以直接使用兼容openai模型的形式,对接已通过Ollama部署的模型,非常的高效方便😉,:

 

更多参考资料:

  • https://ollama.com/library/qwen3

  • https://github.com/ollama/ollama-python

  • https://ai.pydantic.dev/

  • https://github.com/pydantic/pydantic-ai


以上就是本文的全部内容,欢迎在评论区与我们进行讨论~

 

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐