白话GPU-02之超高速公路NVLink、NVSwitch、SXM一文详解
NVLink是NVIDIA开发的一项高速互连技术,主要用于GPU之间以及GPU与CPU之间的高效数据通信。它旨在解决传统PCIe总线在带宽和延迟上的瓶颈,特别适合人工智能(AI)、高性能计算(HPC)和大型数据分析等需要大规模并行计算的工作负载。
一、NVLink
在GPU
服务器中的作用与价值
NVLink
是NVIDIA
开发的一项高速互连技术,主要用于GPU
之间以及GPU
与CPU
之间的高效数据通信。它旨在解决传统PCIe
总线在带宽和延迟上的瓶颈,特别适合人工智能(AI
)、高性能计算(HPC
)和大型数据分析等需要大规模并行计算的工作负载。
NVLink
的核心价值在于它允许处理器之间直接高速通信,无需像传统PCIe
那样经过CPU
和主板芯片组中转。这不仅大幅提升了带宽,还显著降低了延迟。
更重要的是,NVLink
支持GPU
间直接内存访问(GPU Direct RDMA
) 和内存一致性模型。这意味着多块GPU
的显存可以被聚合为一个更大的统一内存池使用,这对于训练参数量远超单卡显存的大型AI
模型至关重要。
为了连接更多设备,NVIDIA
开发了NVSwitch
交换芯片。它就像一个专门为NVLink
网络设计的“交换机”,允许多个GPU
实现全互联(All-to-All
)通信,从而构建大规模、高效的计算集群。
二、NVLink
各代版本的关键技术参数
下表格汇总了NVLink
各代版本的关键技术参数,显示了其演进历程和性能提升。
特性维度 |
NVLink 1.0 |
NVLink 2.0 |
NVLink 3.0 |
NVLink 4.0 |
NVLink 5.0 (Blackwell) |
---|---|---|---|---|---|
推出时间 | 2016
年 |
2017
年 |
2020
年 |
2022
年 |
2024
年 |
典型搭载硬件 | Tesla P100 |
Tesla V100 |
A100 |
H100 |
B200
、 |
单链路带宽(单向) | 20 GB/s |
25 GB/s |
25 GB/s |
25 GB/s |
50 GB/s |
单GPU 总带宽 |
160 GB/s (双向) |
300 GB/s (双向) |
600 GB/s (双向) |
900 GB/s (双向) |
1800 GB/s (双向) |
与PCIe 对比 |
约 |
约 |
约 |
约 |
约 |
关键特性 |
引入 |
支持 |
支持 |
支持 |
C2C
芯片互连、网络化 |
NVLink 5.0
通过使能GPU
共享内存和计算资源,大幅提升了更大规模多GPU
系统的扩展能力,显著优化了训练 (Training
)、推理 (Inference
) 以及逻辑推理 (Reasoning
) 工作流。单个NVIDIA Blackwell GPU
支持多达18
个NVLink 100 GB/s
连接,总带宽为1.8 TB/s
,是上一代的2
倍,是PCIe 5.0
带宽的14
倍以上。NVIDIA Blackwell
等服务器平台,利用这项技术为当今极为复杂的大型模型提供更高的可扩展性。
三、NVLink
的扩展与生态系统——NVLink Fusion
2025
年,NVIDIA
宣布开放其互连技术,推出了NVLink Fusion
计划。这允许其他合作伙伴(如CPU
制造商、定制ASIC
厂商)获得NVLink
端口设计的许可,将其集成到自己的芯片中,从而与NVIDIA
的GPU
实现高速互联。
此举旨在将NVLink
从内部的私有互联技术转变为更广泛的行业互联生态,巩固其在AI
基础设施中的核心地位。首批合作伙伴包括联发科、Marvell
、富士通和高通等。
四、NVLink
的应用场景
-
大规模
AI
模型训练与推理:这是NVLink
的主战场。它极大地加速了多GPU
之间梯度同步和参数交换的速度,缩短了大模型(如LLM
)的训练周期。对于推理,它允许模型分布在多卡上,处理更大模型或更多并发请求。 -
高性能计算 (
HPC
):在科学模拟、气候研究、流体动力学等领域,需要处理海量数据并进行密集计算,NVLink
的高带宽和低延迟能显著提升整体计算效率。 -
专业图形与虚拟化:在高端工作站中,
NVLink
可以连接多块专业GPU
,共同完成复杂的3D
渲染、视频编辑或虚拟化应用,提供更流畅的体验。
五、多GPU
高速交换芯片——NVSwitch
NVSwitch
是NVIDIA
专为多GPU
系统设计的一款高速交换芯片,它基于NVLink
技术构建,旨在解决大规模GPU
集群中高带宽、低延迟的通信需求。
1、NVSwitch
的基本原理
NVSwitch
是一种硬件交换机,允许多个GPU
通过NVLink
接口实现全互联(All-to-All
)通信。它的核心作用是提升多GPU
系统中的数据传输效率,避免传统PCIe
总线带来的带宽瓶颈和延迟问题。
-
与
NVLink
的关系:NVLink
是点对点的高速互联技术,而NVSwitch
则是在此基础上扩展的交换设备,支持更多GPU
之间的高效通信。 -
解决通信瓶颈:在没有
NVSwitch
的系统中,GPU
间通信可能需要经过PCIe
接口或中间GPU
跳转,从而增加延迟和带宽限制。NVSwitch
通过直接的全互联架构消除了这些瓶颈。
2、NVSwitch
的技术特性
1)高带宽与低延迟:
-
第三代
NVSwitch
支持3.2 TB/s
的全双工带宽,采用50 Gbaud PAM4
信号技术,每个差分对提供100 Gbps
的带宽。 -
延迟显著低于传统网络(如
InfiniBand
或以太网),因为它专为GPU
间通信优化,减少了协议开销。
2)可扩展性与全互联:
-
NVSwitch
支持多达16
个GPU
的全互联(第一代),第三代NVSwitch
甚至可连接更多GPU
,并支持跨节点扩展。 -
通过添加更多
NVSwitch
,系统可以轻松扩展GPU
数量,而不会牺牲性能。
3)高级功能集成:
-
SHARP
技术:第三代NVSwitch
集成了NVIDIA SHARP
(可扩展分层聚合和缩减协议),支持网络内计算(如all_reduce
、broadcast
等操作),进一步加速集群通信。 -
安全与可靠性:支持安全处理器保护数据,分区功能隔离不同
NVLink
网络,以及前向纠错(FEC
)增强可靠性。
4)物理设计:
-
第三代
NVSwitch
采用台积电4N
工艺,包含251
亿个晶体管,面积294 mm²
,功耗控制良好。 -
封装为大型
BGA
芯片,提供大量引脚支持NVLink
端口及其他I/O
接口。
NVSwitch
部分版本技术参数对比如下:
包含四块NVSwitch
的HGX H200 8-GPU
,见下图绿色标记:
3、NVSwitch
对于快速的多GPU LLM
推理至关重要
大型语言模型(LLM
)越来越大,增加了处理推理请求所需的计算量。为了满足服务当今LLM
的实时延迟要求,并为尽可能多的用户提供服务,多GPU
计算是必不可少的。这不仅能够降低延迟,提高用户体验,还能够提高吞吐量,降低服务成本。两者同时重要。
即使大型模型可以装入单个state-of-the-art GPU
的显存中,该GPU
生成令牌的速率也取决于可用于处理请求的总计算量。通过结合多个state-of-the-art GPU
的计算能力,可以实现最新模型的实时用户体验。
为了实现良好的多GPU
扩展,AI
服务器首先需要每个GPU
具有出色的互连带宽。它还必须提供快速连接,以使所有GPU
能够尽快与所有其他GPU
交换数据。
借助NVSwitch
,服务器中的每个GPU
都可以与任何其他GPU
同时超高速进行通信,提升LLM
推理时令牌Tokens
输出。
六、命令行查看NVLink
与NVSwitch
状态
可以使用NVIDIA
提供的工具监控NVSwitch
和NVLink
:
1)nvidia-smi
:
-
运行
nvidia-smi topo -m
查看GPU
互联拓扑。 -
运行
nvidia-smi nvlink --status
检查NVLink
带宽和状态。
2)dcgm
工具:
-
运行
dcgmi diag -r 5
进行NVLink
诊断测试。
七、超越PCIe
的封装形式——SXM
SXM
的全称是Server PCIe Module
,但它实际上完全避开了标准的PCIe
插槽。它是一种专为高性能数据中心和AI
工作负载设计的、直接焊接在服务器主板上的GPU
封装形式。
1、SXM
主要特点及与PCIe
的对比
SXM
的主要特点:
1)无PCIe
插槽,直接板载:
-
SXM
版本的GPU
(如H100 SXM
)没有常见的金手指,它通过一个专用的SXM
连接器直接垂直安装在主板上。 -
这样做的好处是:信号路径更短,电气性能更优,供电能力远超
PCIe
插槽,并且节省空间。
2)远超PCIe
的供电能力:
-
一个标准的
PCIe 5.0 x16
插槽最大供电能力约为600W
。 -
而
H100 SXM
版本的TDP
(热设计功耗)高达700W
。这额外的电力必须通过专用的、更粗的电源通道直接从服务器电源提供,以确保GPU
在满负荷运行时稳定工作。
3)极致的互联带宽:原生NVLink
支持
-
这是
SXM
形式最核心的优势。SXM
主板为GPU
之间提供了原生、高速的NVLink
互联通道。 -
H100 SXM
每个GPU
提供18 个 NVLink 4.0
链路,总双向带宽高达900 GB/s
。 -
相比之下,
PCIe
版本的H100
(例如H100 PCIe
)通常只有7
个NVLink 链路
(用于卡间互联),带宽约为400 GB/s
,并且需要通过外部桥接器连接。
以H100
为例,SXM
与PCIe
两种形式对比:
2、SXM
与NVSwitch
的关系:天作之合
它们的关系是高度协同、相互依赖的,共同目标是释放多GPU
系统的最大潜能。
1)SXM
为NVSwitch
提供物理基础:
-
SXM
形式因子通过主板上的精密布线,将每个GPU
,例如H100
,18
个NVLink
端口直接引出来,连接到NVSwitch
芯片上。 -
这种设计提供了最高质量的信号完整性,使得超高速(例如
H100
,900 GB/s
)的带宽能够稳定实现。这是使用外部桥接器的PCIe
卡无法比拟的。
2)NVSwitch
为SXM GPU
提供极致互联:
-
SXM
提供了“高速公路的入口”(高速NVLink
端口),而NVSwitch
则是整个城市的“立体交通枢纽系统”,它确保了任何两条“高速公路”之间都能无缝、高效地对接,没有拥堵和红灯。 -
没有
NVSwitch
,SXM GPU
之间的NVLink
连接将是有限和局部的。有了NVSwitch
,所有SXM GPU
才真正构成了一个统一的计算巨兽。
3)共同应用于顶级平台:
-
这种
SXM + NVSwitch
的组合是NVIDIA DGX
和HGX
系统的标配。 -
例如,
DGX H100
服务器就是集成了8
个H100 SXM GPU
和4
个第三代NVSwitch
芯片的完美典范,形成了一个计算性能和通信性能都达到极致的AI
超级计算机。
八、硬件总结
NVLink
是NVIDIA
攻克数据传输瓶颈、释放多芯片协同计算潜力的核心技术。它不仅通过极高的带宽和极低的延迟提升了性能,更通过统一内存访问和灵活的拓扑结构(借助NVSwitch
)改变了我们构建计算系统的方式。
随着 NVLink Fusion
的开放,其影响力正从NVIDIA
内部扩展到更广泛的异构计算生态,力图成为未来AI
基础设施的互联标准。
NVSwitch
基于NVLink
技术构建,旨在解决大规模GPU
集群中高带宽、低延迟的通信需求。随着Blackwell
架构的推出,NVLink
和NVSwitch
的性能将进一步升级,支持更复杂和大规模的AI
模型。
SXM
是一种物理封装和互联标准,它让NVIDIA
的数据中心级高性能GPU
(例如H100
),能够获得远超PCIe
的供电和原生高速NVLink
支持。
未来,随着AI
模型规模的持续增长,NVSwitch
及其后续技术将在构建高效GPU
集群中发挥更加核心的作用。
九、写在最后
NVSwitch
主要用于NVIDIA
的高性能计算GPU
,例如H100
,并不涉及到RTX
消费级GPU
。早期消费级RTX GPU
通常使用NVLink
桥接器SLI
实现多卡互联(现已不再支持)。这本质上是点对点的直接连接,并不能像NVSwitch
那样实现真正的全互联拓扑。
因此,在多GPU
并行计算时,尤其是需要所有GPU
频繁交换数据的场景(如大规模AI
训练),NVSwitch
更能发挥多GPU
性能与I/O
。当然,优秀的硬件代价是更昂贵的价格,这也是什么H100 SXM
比H100 PCIe
贵的原因。
更多推荐
所有评论(0)