gemma-3n-E2B-it-litert-preview

一、模型概述

Gemma 3n是由谷歌DeepMind团队开发的一系列轻量级、尖端的开源模型。这些模型基于与Gemini模型相同的研究和技术构建,专为各种内容理解任务而设计,包括问答、摘要和推理等。其较小的模型尺寸使得在资源有限的环境中部署成为可能,如笔记本电脑、台式机或个人云基础设施,从而实现对尖端AI模型的民主化访问,促进创新。

二、模型输入输出

Gemma 3n模型的输入包括文本字符串(如问题、提示或要总结的文档)、图像(标准化为256x256、512x512或768x768分辨率并编码为256个标记每个)、音频数据(从单声道编码为每秒6.25个标记)以及总输入上下文32K个标记。输出为对输入生成的文本,如问题的答案、图像内容分析或文档摘要,总输出长度可达32K个标记,减去请求输入标记。

三、技术细节

(一)模型数据

Gemma 3n模型在包含约11万亿个标记的多样数据集上进行训练,知识截止日期为2024年6月。数据集包括网络文档、代码、数学文本、图像和音频等多种来源,涵盖超过140种语言。在数据预处理方面,应用了严格的CSAM(儿童性虐待材料)过滤、敏感数据过滤以及其他基于内容质量和安全性的过滤方法。

(二)硬件与软件

Gemma模型使用TPU(Tensor Processing Unit)硬件(TPUv4p、TPUv5p和TPUv5e)进行训练。TPU专为机器学习中的矩阵运算设计,具有性能、内存、可扩展性和成本效益等优势。训练使用JAX和ML Pathways进行,其中JAX允许研究人员利用最新硬件(包括TPU)进行快速高效的大型模型训练,ML Pathways是谷歌构建能够跨多个任务泛化的AI系统(特别是大型语言模型)的最新努力。

(三)高效参数管理

Gemma 3n模型采用选择性参数激活技术以减少资源需求。该技术使模型能够以2B和4B的有效参数尺寸运行,低于它们所包含的总参数数量。

四、性能评估

Gemma 3n模型在多个基准测试中进行了评估,包括推理和事实性、多语言、STEM和代码等方面。例如,在HellaSwag基准测试中,E2B PT模型在10-shot设置下的准确率为72.2%,E4B PT模型为78.6%;在BoolQ基准测试中,E2B PT模型在0-shot设置下的准确率为76.4%,E4B PT模型为81.6%。此外,还在三星S25 Ultra设备上对Android性能基准进行了测试,结果显示在CPU和GPU后端的不同量化模型在预填充和解码速度、首次标记时间、模型大小和内存使用等方面的性能表现。

五、安全性和伦理考量

谷歌对Gemma 3n模型进行了结构化评估和内部红队测试,以确保其符合相关的内容政策。评估涵盖了儿童安全、内容安全和代表性伤害等多个类别。测试结果显示,与之前的Gemma模型相比,该模型在所有安全测试领域都表现出安全的性能水平,并且在高严重性违规方面显著改进。然而,评估的一个局限性是主要使用英语语言提示。

六、应用场景和限制

(一)应用场景

Gemma 3n模型在内容创作与通信(如文本生成、聊天机器人、文本摘要、图像数据提取和音频数据提取)、研究与教育(如自然语言处理和生成模型研究、语言学习工具和知识探索)等领域具有广泛的应用潜力。

(二)限制

Gemma 3n模型存在一些限制,包括训练数据的质量和多样性对模型能力的影响、模型在处理复杂任务和开放性任务时的挑战、对语言模糊性和细微差别的理解能力有限、生成响应的事实准确性问题以及模型在应用常识推理方面的不足。

七、风险与缓解措施

开发生成模型引发了一些伦理问题,如偏差和公平性、错误信息和滥用、透明度和责任等。为了缓解这些风险,谷歌鼓励持续监测、在模型训练和微调期间探索去偏差技术、实施内容安全机制、通过技术限制和教育来防止恶意使用、以及采用隐私保护技术等。

八、总结

Gemma 3n模型作为谷歌DeepMind团队开发的轻量级、开源的多模态模型,凭借其在多种任务上的适用性、较低的资源需求和对多种语言的支持,为广泛的用户提供了一个强大而灵活的AI工具。尽管如此,用户在使用过程中也应充分了解其局限性和潜在风险,以确保安全、负责任地应用该技术。

在这里插入图片描述

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐