谷歌轻量级内容理解大模型速读：gemma-3n-E2B-it-litert-preview

Gemma 3n是由谷歌DeepMind团队开发的一系列轻量级、开源的多模态模型，基于与Gemini模型相同的研究和技术构建。该模型支持文本、图像和音频等多种输入，输出为生成的文本内容，适用于问答、摘要、推理等任务。Gemma 3n在包含11万亿标记的多样化数据集上训练，涵盖140多种语言，并采用严格的过滤方法确保数据安全。模型使用TPU硬件进行训练，通过选择性参数激活技术减少资源需求。在性能评估

Panesle

782人浏览 · 2025-05-23 10:19:04

Panesle · 2025-05-23 10:19:04 发布

gemma-3n-E2B-it-litert-preview

一、模型概述

Gemma 3n是由谷歌DeepMind团队开发的一系列轻量级、尖端的开源模型。这些模型基于与Gemini模型相同的研究和技术构建，专为各种内容理解任务而设计，包括问答、摘要和推理等。其较小的模型尺寸使得在资源有限的环境中部署成为可能，如笔记本电脑、台式机或个人云基础设施，从而实现对尖端AI模型的民主化访问，促进创新。

二、模型输入输出

Gemma 3n模型的输入包括文本字符串（如问题、提示或要总结的文档）、图像（标准化为256x256、512x512或768x768分辨率并编码为256个标记每个）、音频数据（从单声道编码为每秒6.25个标记）以及总输入上下文32K个标记。输出为对输入生成的文本，如问题的答案、图像内容分析或文档摘要，总输出长度可达32K个标记，减去请求输入标记。

三、技术细节

（一）模型数据

Gemma 3n模型在包含约11万亿个标记的多样数据集上进行训练，知识截止日期为2024年6月。数据集包括网络文档、代码、数学文本、图像和音频等多种来源，涵盖超过140种语言。在数据预处理方面，应用了严格的CSAM（儿童性虐待材料）过滤、敏感数据过滤以及其他基于内容质量和安全性的过滤方法。

（二）硬件与软件

Gemma模型使用TPU（Tensor Processing Unit）硬件（TPUv4p、TPUv5p和TPUv5e）进行训练。TPU专为机器学习中的矩阵运算设计，具有性能、内存、可扩展性和成本效益等优势。训练使用JAX和ML Pathways进行，其中JAX允许研究人员利用最新硬件（包括TPU）进行快速高效的大型模型训练，ML Pathways是谷歌构建能够跨多个任务泛化的AI系统（特别是大型语言模型）的最新努力。

（三）高效参数管理

Gemma 3n模型采用选择性参数激活技术以减少资源需求。该技术使模型能够以2B和4B的有效参数尺寸运行，低于它们所包含的总参数数量。

四、性能评估

Gemma 3n模型在多个基准测试中进行了评估，包括推理和事实性、多语言、STEM和代码等方面。例如，在HellaSwag基准测试中，E2B PT模型在10-shot设置下的准确率为72.2%，E4B PT模型为78.6%；在BoolQ基准测试中，E2B PT模型在0-shot设置下的准确率为76.4%，E4B PT模型为81.6%。此外，还在三星S25 Ultra设备上对Android性能基准进行了测试，结果显示在CPU和GPU后端的不同量化模型在预填充和解码速度、首次标记时间、模型大小和内存使用等方面的性能表现。

五、安全性和伦理考量

谷歌对Gemma 3n模型进行了结构化评估和内部红队测试，以确保其符合相关的内容政策。评估涵盖了儿童安全、内容安全和代表性伤害等多个类别。测试结果显示，与之前的Gemma模型相比，该模型在所有安全测试领域都表现出安全的性能水平，并且在高严重性违规方面显著改进。然而，评估的一个局限性是主要使用英语语言提示。