客服
首页 / 资讯中心 / 新闻 /

未来算力:NVIDIA GB200 NVL72概览

发布者:兆龙互连 发布时间:2025-03-04


引言:算力需求爆发与技术创新驱动

在人工智能、大数据分析和科学计算等领域算力需求指数级增长的背景下,GB200高性能计算单元与NVL72高速互联系统成为新一代算力基础设施的核心。本系列文旨在解析其关键技术架构,提供可靠的布线连接方案,助力企业构建高效、弹性、可持续的算力底座。

GB200与NVL72的基本概念


Grace Blackwell超级芯片

全新Blackwell GPU 继续沿用定制 TSMC 4NP 工艺制造。已知的芯片款式有3类——B100、B200、GB200超级芯片。B100不是新发布的主角,仅在HGX B100板卡中被提及。B200是重头戏,GB200又进一步把B200和1颗72核Grace CPU拼在一起。


GB200超级芯片将2个Blackwell GPU和CPU组合,每个GPU的满配TDP达到1200W,使得整个超级芯片的TDP达到2700W(1200W x 2+300W)。


GB200 NVL72

GB200 是 NVIDIA GB200 NVL72 的关键组件。NVIDIA GB200 NVL72 是一个机架规模系统,包含36个Grace CPU 和 72个Blackwell GPU,NVLink 多节点 all-to-all 带宽达到 130 TBb/s。每个计算节点配备四个Connect-X InfiniBand NIC和一个BlueField-3 DPU。此外,机架内部有9个NVLink交换机,每个提供1.8 TbpsTb/s的双向带宽。

关键设计与连接方案


GB200 NVL72使用铜缆在机柜内部连接GPU,数量超过5000条。而跨机柜间因距离原因推荐使用光纤连接技术,以减少信号损失。


此外,电源和散热也是需要考虑的重要因素,单机柜功耗高达130 kW,需要48 V供电排1400 A。液冷系统支持130 kW的制冷能力,分岐管和线缆(特别是铜连接)需要特别设计。


在扩展性方面,GB200有两种组网架构:一排8个机柜组成一个POD,或两排8个机柜组成类似微模块的POD。高带宽域(HBD)超节点系统支持从32到512卡,通过Scale-Up和Scale-Out扩展。


基于以上分析,布线方案需要涵盖以下几个方面:

● 机柜内部布线:使用大量高速铜缆连接GPU和NVLink交换机。

● 机柜间连接:采用高带宽光纤以减少信号损失。

● 电源和散热:设计高电流电源分配和高效液冷系统。

● 扩展性规划:支持通过HBD超节点进行Scale-Up和传统Ethernet进行Scale-Out。

01 机柜布线设计:机柜内部布线和机柜间互联

1) GPU互联

● 使用 5000+条高速铜缆(NVLink专用),通过背板连接72个GB200 GPU,实现机柜内低延迟、高带宽(1.8 TbpsTb/s/GPU)通信。

● 每个计算节点(18节点/机柜)集成4个Connect-X InfiniBand NIC和1个BlueField-3 DPU,通过铜缆直连NVLink交换机。

2) NVLink交换机部署

● 机柜内配置 9台NVLink交换机,每台交换机提供 1.8 TbpsTb/s双向带宽,支持72个GPU的全互联。

● 交换机与GPU通过专有铜线背板连接,无需光模块,降低内部信号损耗。


02 机柜间互联方案

1)  跨机柜连接

● 采用 ≥800G光模块800G OSFP光模块等),通过光纤连接多机柜集群,支持跨机柜高带宽需求。

● 部署 Spectrum交换机(52端口,含4×QSFP28 100Gbps100 Gb/s端口)用于机柜顶部网络聚合。

2) 扩展架构

● POD级联:支持两种组网模式:

单排8机柜组成POD,用于紧凑型集群。

双排8机柜组成微模块POD,支持更大规模扩展。

● HBD超节点:通过Scale-Up接口连接32~512卡,形成高带宽域;结合传统Ethernet Scale-Out扩展至64K节点。



02 电源与散热方案:确保系统稳定运行

1) 供电系统

单机柜功耗130 kW,采用 48 V直流供电,需配置 1400 A高电流电源排。

2) 液冷系统

部署分岐管液冷方案,支持130 kW制冷能力,确保GPU和交换机散热。


03 扩展性与冗余设计:满足未来算力扩展和高可靠性要求

1) Scale-Up/Scale-Out架构

● HBD超节点:通过NVLink和InfiniBand实现机柜内Scale-Up,单机柜支持36~72 GPU。

● Ethernet Scale-Out:利用400G光模块连接多个POD,构建超大规模集群(如64K节点)。

2) 冗余措施

● 电源双路输入,液冷系统多泵冗余。

● 网络层采用多路径拓扑(如CLOS架构),避免单点故障。



04 拓扑示意图

3.2T GPU HBD


4.8T GPU HBD





实际应用与建议



1)  中小客户:优先采用云服务或传统服务器,单机柜GB200系统需评估液冷/供电成本。

2)  大型客户:部署多机柜集群,结合HBD超节点和Ethernet Scale-Out,满足AI训练/推理需求。

3)  运维重点:定期检查铜缆连接稳定性,优化液冷流量分配,监控48 V电源负载均衡。

结语



NVIDIA的GB200与NVL72已证明其在AI和高性能计算领域的技术突破。从单芯片到集群级解决方案,该平台在互联性、扩展性和稳定性上表现出了卓越的性能。下一篇文章将聚焦《未来算力:NVL72机柜高效互联布线解决方案》。




本内容基于NvidiaNVIDIA GB200架构设计,具体实施需结合现场空间、预算及供应商资源调整。部署前需进一步确认具体连接拓扑、线缆规格、端口配置以及冗余设计,以确保系统的可靠性和性能。




END





解决方案
白皮书
相关产品