第12章多模态应用开发——让AI看懂世界

本项目介绍了一个基于多模态AI的视觉问答(VQA)应用开发，使用LLaVA模型实现图片内容理解和智能对话。系统通过Gradio构建交互界面，用户可上传图片并提问，AI将基于视觉和语言信息的融合处理生成回答。文章详细讲解了多模态模型原理、环境配置、模型加载和推理实现，并提供了完整的代码示例。该项目不仅实现了"看图说话"功能，还为扩展到视频理解、专业领域微调等方向奠定了基础，是探索

liangxh2010

510人浏览 · 2025-09-26 06:00:00

liangxh2010 · 2025-09-26 06:00:00 发布

1. 项目概述

前面的项目主要集中在处理文本数据。然而，人类的交流远不止于文字，图像、声音等共同构成了我们丰富的感知世界。本项目将带你迈入令人兴奋的多模态（Multimodal）AI领域，构建一个能“看懂”图片并就图片内容进行智能问答的应用。

核心目标：

开发一个视觉问答（Visual Question Answering, VQA）应用。用户可以上传一张图片，然后像聊天一样向AI提问关于图片内容的问题，AI将给出精准的回答。

你将学习到的核心技术：

多模态大模型（LMMs）：理解多模态大模型的基本原理，特别是像LLaVA（Large Language and Vision Assistant）这样的模型是如何将视觉信息和语言信息融合在一起的。
图像与文本的联合处理：学习如何使用transformers库同时处理图像和文本输入，为多模态模型准备正确的输入格式。
Hugging Face多模态实践：熟练使用Hugging Face生态中的工具加载和运行一个强大的开源多模态模型。
Gradio应用封装：再次使用Gradio，但这次是构建一个支持图片上传和实时对话的多模态交互界面。

项目整体流程图

2. 核心概念：多模态大模型 LLaVA

LLaVA (Large Language and Vision Assistant) 是一个里程碑式的开源多模态项目。它巧妙地将一个强大的视觉编码器 (Vision Encoder) 和一个强大的大语言模型 (LLM) 连接起来，实现了卓越的视觉理解和对话能力。

其核心思想可以简化为三步：

看懂图片 (Vision Encoding)：使用一个预训练好的视觉模型（如CLIP的ViT）来“阅读”图片，将其转换成一系列数字化的特征向量（Embeddings）。这些向量可以被看作是图片内容的“数字摘要”。
语言对齐 (Projection)：通过一个简单的线性投影层（Projection Layer），将视觉特征向量的“语言”转换为大语言模型能够理解的“语言”，即将视觉Embeddings映射到LLM的词嵌入空间。
对话生成 (Language Modeling)：将转换后的视觉特征和用户的文本问题拼接在一起，形成一个统一的输入序列，然后送给大语言模型。LLM会像处理纯文本一样处理这个序列，根据它“看到”的图片信息和“读到”的问题，生成流畅、相关的回答。

简单来说，LLaVA教会了LLM如何将图片内容“翻译”成它能理解的文字，从而让一个纯文本的LLM具备了看图说话的能力。

3. 项目实战：构建视觉问答应用

3.1 环境准备

我们将使用Hugging Face加载LLaVA模型。请确保你已安装必要的库，特别是Pillow用于图像处理。

!pip install -q transformers torch bitsandbytes accelerate pillow gradio

3.2 加载LLaVA模型与处理器

多模态模型通常会有一个集成的“处理器”（Processor），它能同时负责图像的预处理和文本的分词。

import torch
from transformers import AutoProcessor, LlavaForConditionalGeneration
import requests
from PIL import Image

# 使用4-bit量化加载模型以节省显存
model_id = "llava-hf/llava-1.5-7b-hf"

model = LlavaForConditionalGeneration.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    low_cpu_mem_usage=True, 
    load_in_4bit=True,
    device_map="auto"
)

processor = AutoProcessor.from_pretrained(model_id)

3.3 构建推理函数

这个函数将接收一张图片和用户的提问，然后返回模型的回答。

def process_image_and_text(image_file, prompt_text):
    """接收一个图像文件和一个文本提示，返回模型的生成结果。"""
    # LLaVA的prompt有特定的格式，需要遵循模板
    # 格式为： "USER: <image>\n<user_question>\nASSISTANT:"
    prompt = f"USER: <image>\n{prompt_text}\nASSISTANT:"
    
    # 打开图像
    raw_image = Image.open(image_file).convert('RGB')
    
    # 使用processor处理图像和文本
    inputs = processor(prompt, images=raw_image, return_tensors='pt').to(model.device, torch.float16)
    
    # 生成回答
    output = model.generate(**inputs, max_new_tokens=200, do_sample=False)
    
    # 解码并清理结果
    response = processor.decode(output[0][2:], skip_special_tokens=True)
    
    return response

# --- 测试一下 ---
# 准备一张图片 (可以从URL下载或使用本地图片)
image_url = "https://www.ilankelman.org/stopsigns/australia.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)
image.save("test_image.jpg")

question = "What is the main subject of this image? What color is it?"
answer = process_image_and_text("test_image.jpg", question)
print(f"问题: {question}")
print(f"回答: {answer}")
# 预期回答会提到这是一个红色的停止标志

3.4 使用Gradio构建交互界面

现在，我们将上面的函数封装成一个Web应用，让用户可以方便地上传图片和提问。

import gradio as gr

def gradio_interface(image, question):
    if image is None or question.strip() == "":
        return "请上传图片并输入问题。"
    
    # Gradio的Image组件输出的是一个Numpy数组，需要先保存为临时文件
    temp_image_path = "temp_uploaded_image.png"
    Image.fromarray(image).save(temp_image_path)
    
    return process_image_and_text(temp_image_path, question)

# 创建Gradio界面
iface = gr.Interface(
    fn=gradio_interface,
    inputs=[
        gr.Image(type="numpy", label="上传图片"),
        gr.Textbox(label="输入你的问题")
    ],
    outputs=gr.Markdown(label="AI的回答"),
    title="🖼️ LLaVA 视觉问答助手",
    description="上传一张图片，然后向AI提问关于图片的内容。例如：'图片里有什么？' 或者 '描述一下图中的场景。'",
    allow_flagging="never"
)

# 启动应用
iface.launch(share=True, debug=True)

当你运行这段代码后，Gradio会生成一个URL。打开它，你就可以看到一个简洁的Web界面，可以上传图片、输入问题，并实时看到AI的回答。

4. 总结与展望

通过本项目，你成功地构建了一个多模态VQA应用，让AI具备了“视觉”能力。这是迈向通用人工智能（AGI）的重要一步。

可以探索的扩展方向：

视频理解：探索支持视频输入的模型（如Video-LLaVA），构建能对视频内容进行问答或摘要的应用。
多模态微调：收集特定领域的“图片-问题-回答”数据集，对LLaVA进行微调，使其成为该领域的视觉专家（例如，医疗影像读片助手、商品识别专家）。
图像生成与编辑：结合文生图模型（如Stable Diffusion），构建一个可以根据对话内容生成或编辑图片的应用，实现真正的“所说即所见”。
音频与语音：将语音识别（ASR）和语音合成（TTS）技术融入，创建一个可以听、说、看的多模态AI伴侣。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

智慧社区解决方案PPT(76页)

讯飞AI开发者社区

大数据领域数据架构的人工智能融合应用

随着企业数据规模以年均40%的速度爆炸式增长（Gartner, 2023），传统数据架构在处理多模态数据、支撑实时智能决策时面临效率瓶颈。如何通过AI实现数据治理的自动化与智能化机器学习如何优化数据存储与查询效率深度学习模型在实时数据流处理中的应用范式智能决策系统与数据中台的架构耦合机制背景部分定义核心概念与技术演进路径核心章节解析融合架构的技术组件与算法实现实战篇提供完整的端到端解决方案应用篇呈

讯飞AI开发者社区

JWT原理

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。