技术背景说明:根据Meta在2024年OCP峰会的披露,Catalina是其基于NVIDIA Blackwell平台开发的AI机架解决方案。该项目在保留标准GB200 NVL72液冷机架核心设计的同时,针对性优化了网络架构和冷却系统,既缩短了6-9个月的开发周期,又实现了与Meta现有AI基础设施的无缝集成。这种"80%标准化+20%关键定制"的模式,已成为超大规模AI基础设施建设的行业最佳实践。
《2024 OCP Global Summit会议资料分享 (完整&推荐)》
本文参考资料来自OCP文档《Catalina - Specification Contribution Review》,分享人是Meta的硬件工程师Matt Bowman。
本次贡献涉及Catalina计算托盘(Compute Tray)。该设计是Meta最新AI/ML机架中的主要CPU+GPU托盘。机架内的其他组件可能由其他规格和贡献涵盖。
概览
- Meta公司的下一代人工智能 / 机器学习平台
- 符合 ORv3 HPR 标准
- 1RU 托盘,使用适配卡(转换套件)以兼容Open Rack开放式机架
- 每个计算托盘包含前端网络、后端网络、启动盘、工作负载存储、散热和管理组件。
- 具体组件包括:
- DC-SCM 2.0
- OCP NIC(开放计算项目网卡)
- E1.S 固态硬盘(启动盘和数据盘)
- 配电板(PDB)
- 风扇
- 用于液冷高功耗组件的冷板回路
平台架构
如上图,Catalina 1U节点由2块GB200主板组成,每块上面包含Grace ARM CPU和B200 GPU。除了B200对外提供NVLink 5 Scale-out扩展互连接口之外;CPU与GPU之间,以及2颗Grace CPU之间应该也是NVLink C2C互连,提供内存一致性访问。
B200片上自带HBM内存,Grace CPU的内存则由LPDDR5x CAMM模组提供(下图供参考)。
在Grace CPU与B200 GPU之间,看上去还有蓝色示意的PCIe连接,B200支持Gen6 x16 Endpoint设备模式,但Grace CPU应该还只能支持到PCIe 5.0。
CPU+GPU 1:1配比的模式(传统x86 CPU+GPU的服务器多为1:4),不需要PCIe Switch,也可以理解为CPU兼做了PCIe Switch的工作。东西向网络是2块后端的CX7 400G网卡;另有1块CX7-200G应该是用于南北向网络(存储、管理等流量)。
每块主板连接到机箱前端的2个E1.S NVMe SSD,支持Gen5 x4。1U机箱一共能安装4块盘。
机械规格
- 1RU 规格的托盘,可安装在适配卡上,以实现与Open Rack的兼容。
- - 尺寸:高 43.60 毫米 × 宽 498 毫米 × 深 766 毫米
- - 重量:约 20.5 千克(45 磅)
电源
- - 采用符合 ORv3 标准的机架,使用约 48V 直流电供电。
- - 配电板(PDB)将 48V 电压降压至 12V 进行分配。
- - 电源设计支持每个系统的最大热设计功耗(TDP)为 3.9 千瓦。
不难看出,功耗最大的设备就是GB200模块,Blackwell GPU的1200W和Grace CPU的300W,一共需要125A的12V电流;CX8网卡也要100W。(注意这里写的网卡与上文中不同,很可能是支持2种配件)
散热
该托盘采用风冷和液冷相结合的方式。
八个风扇用于冷却 E1.S 驱动器和 OCP 网卡
- 最大进气温度 35°C
- 最高海拔 6000 英尺
- 相对湿度 10%-90%
- N+1 冗余设计
采用带有冷板回路(CPL)的液冷系统来冷却高 TDP(热设计功耗)设备(高性能模块、后端网卡模块)
- 冷却液类型:基于 PG25 的液体(例如陶氏 Frost LC-25)
- 冷却液供应温度:标称 40°C,允许波动至 42°C
- 冷却液流速和压力差:最高 100 升 / 分钟,15 磅 / 平方英寸
- UQD04 接口
原则 - 开放性
Catalina计算托盘以其专注且优化的设计彰显了开放性。这种设计能在保持整体设计一致性的同时,根据需求对托盘的不同部件进行重复利用或升级。众多其他由开放计算项目(OCP)贡献的设计(如 OCP 网卡、NVMe Cloud等)构成了该计算托盘设计的关键组件。
- 效率
Catalina计算托盘采用了所有可行的方法和特性来提高密度并降低功耗(如功率平滑、节流控制、优化的风扇和液体冷却控制等)。这对于成功集成到我们的数据中心环境至关重要。
- 影响力
随着我们系统功率密度的不断增加,Catalina计算托盘代表了我们首次大规模部署的液冷人工智能硬件。它为我们如何利用气助液冷(AALC)以及设施用水进行设计、管理和部署硬件奠定了基调。
- 可扩展性
Catalina计算托盘的设计便于扩展,旨在打造大规模集群。为实现这一目标,该设计具备高密度、模块化的特点,并配备强大的遥测功能,从而能够快速且准确地进行故障诊断和修复。
- 可持续性
Catalina计算托盘在设计上注重循环利用,包括未来的再利用、前瞻性的兼容性和可升级性,这是其核心设计理念之一,有助于确保 Meta 能够实现其净零可持续发展目标。
以下补充几种基于x86 CPU的GPU服务器参考架构/规格:
1、同样来自OCP(Meta)的Grand Teton项目
2、PowerEdge XE7745架构图(经过我补充)
3、Lenovo 问天 WA7785a G3 规格参考
扩展阅读
《OCP AI开放系统白皮书:可扩展基础设施蓝图》
《DeepSeek时代:关于AI服务器的技术思考(PCIe篇)》
《3U 8卡:对AI推理服务器意味着什么?》
《风冷、液冷GPU服务器密度提升 - PowerEdge 17G整机架预览 (2)》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文。感谢您的阅读和支持!