AI-大模型（1）怎么计算模型推理需要多少GPU

GPU计算

多云的夏天

370人浏览 · 2025-02-13 08:26:08

多云的夏天 · 2025-02-13 08:26:08 发布

1.GLM-9B-chat 为例
1.1参数：9B->90亿参数
FP32(4字节）一般用FP16这个版本
模型的大小： 18G
1.2.层数：40层
隐藏层维度：4096
KV_Cache：10个并发的推理
每个token显存*token数*用户数
(40*4096*2byte*2）*1k*10 =6G
token数:多少的内容和回复。上下文窗口内容是128K

1.3 推理过程中的缓存空间：(activation,buffer,overheads)
占总体资源的10%
（18+6+2.4=26.4G）

10个并发左右，大概就需要这么大的了。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

智慧社区解决方案PPT(76页)

讯飞AI开发者社区

对账加密与非对称加密详解

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

讯飞AI开发者社区

大数据领域数据架构的人工智能融合应用

随着企业数据规模以年均40%的速度爆炸式增长（Gartner, 2023），传统数据架构在处理多模态数据、支撑实时智能决策时面临效率瓶颈。如何通过AI实现数据治理的自动化与智能化机器学习如何优化数据存储与查询效率深度学习模型在实时数据流处理中的应用范式智能决策系统与数据中台的架构耦合机制背景部分定义核心概念与技术演进路径核心章节解析融合架构的技术组件与算法实现实战篇提供完整的端到端解决方案应用篇呈