AI专题十七:一个AI算力板块上多颗chiplet之间的chip-to-chip连接

hegangben
2026-04-17 / 0 评论 / 9 阅读 / 正在检测是否收录...

1 H100 板卡

NVIDIA H100 实际上采用的是单一大芯片(Monolithic)设计,而非 Chiplet/MCM 多芯片设计。

项目规格
GPU 型号GH100(Hopper 架构)
制造工艺台积电 4N 定制工艺
晶体管数量800 亿
Die 尺寸814 mm²
架构类型单一大芯片(Monolithic),非 Chiplet

所以NVIDIA H100 GPU板卡没有多颗算力芯片的chiplet 的 chip-to-chip连接

2 一个AI算力版本上集成多颗算力chiplet 的方案

AMD MI300X 架构详解

  1. 板卡上的 Chiplet 组成

    组件数量工艺节点功能
    XCD (Accelerator Complex Die)8 颗台积电 5nmGPU 计算芯粒,每颗含 38 个 CU
    IOD (I/O Die)4 颗台积电 6nmI/O 芯粒,含内存控制器、Infinity Fabric 网络
    HBM3 堆栈8 颗-每颗 24GB,共 192GB

mo2jtok6.png

NVIDIA Blackwell (B100/B200) 架构详解

  1. 板卡上的 Chiplet 组成

    组件数量工艺节点功能
    GPU Compute Die2 颗台积电 4NP计算芯粒,每颗约 1040 亿晶体管
    HBM3e 堆栈8 颗-每颗 24GB,共 192GB
  2. 双 Die 互连结构
    Blackwell 采用 NV-HBI(NV-High Bandwidth Interface) 连接两颗计算芯粒
┌─────────────────┐     NV-HBI (10 TB/s)     ┌─────────────────┐
│   GPU Die 0     │  ←────────────────────→  │   GPU Die 1     │
│  (104B 晶体管)   │    芯片间高带宽接口       │  (104B 晶体管)   │
│                 │                          │                 │
│  80 SM (第5代)  │                          │  80 SM (第5代)  │
│  5 颗 HBM3e     │                          │  3 颗 HBM3e     │
└─────────────────┘                          └─────────────────┘
         ↓                                          ↓
    ┌─────────────────────────────────────────────────────┐
    │           TSMC CoWoS-L 硅中介层                      │
    │     (Local Silicon Interconnect 技术)               │
    └─────────────────────────────────────────────────────┘

两颗 reticle-limited dies(约 800mm² 每颗)通过 NV-HBI 以 10 TB/s 速率连接
szwecent.com
• 采用 TSMC CoWoS-L 封装技术(带 LSI 芯片的 RDL 中介层)
EnosTech.com
• 对外呈现为 单一统一 GPU(逻辑上不是双 GPU)

上面两个GPU 板块对比

特性AMD MI300XNVIDIA B100/B200
Chiplet 数量12 颗(8 XCD + 4 IOD)2 颗 GPU Die
每个 Chiplet 内部 Die 数XCD: 1 颗 Die
IOD: 1 颗 Die
每颗 GPU Die: 1 颗大 Die
堆叠方式3.5D(3D SoIC + 2.5D CoWoS)2.5D CoWoS-L(双 Die 平铺)
内部互连技术Infinity Fabric APNV-HBI (10 TB/s)
外部互连技术Infinity Fabric (896 GB/s)NVLink 5.0 (1.8 TB/s)
计算单元304 CU (8×38)160 SM (2×80)
内存容量192 GB HBM3192 GB HBM3e
总晶体管数~1530 亿2080 亿

3 一个AI算力板块上多颗chiplet之间的chip-to-chip连接

互联技术带宽(双向,典型配置)延迟(链路延迟,典型场景)能效(每字节传输能耗/相对值)一致性支持PHY面积(相对PCIe Gen5,同工艺)关键备注
NVLink C2C(4.0)单链路900GB/s;多链路可聚合(如Grace Hopper平台)亚纳秒级(<1ns,封装内芯片间)1.3皮焦/字节;相对PCIe Gen5提升25倍支持全缓存一致性,兼容AMBA CHI协议10%(面积效率提升90%)专为芯片级短距互联设计,依赖先进封装(MCM/硅中介层)
PCIe Gen5x16链路:128GB/s(单通道32GT/s,NRZ调制)15-30ns(板级设备间)相对NVLink C2C低25倍;典型每字节能耗~32.5皮焦不支持原生缓存一致性,需上层协议扩展100%(基准值)通用I/O互联,生态成熟,适用于板级外设连接
PCIe Gen6x16链路:256GB/s(单通道64GT/s,PAM4调制)<10ns(板级设备间,FLIT模式)相对PCIe Gen5提升50%;每字节能耗~21.7皮焦不支持原生缓存一致性110%-120%(引入FEC和PAM4,面积略有增加)兼容前代PCIe设备,支持动态FLIT/TLP模式切换
CCIX 1.1x16链路:100GB/s(单通道25Gbps,NRZ);扩展模式可达更高10-20ns(板级CPU-加速器间)相对PCIe Gen5提升2-3倍;每字节能耗~10-16皮焦支持全缓存一致性,基于AMBA CHI协议演进95%-105%(基于PCIe物理层,面积相近)专为异构计算设计,优化CPU与加速器互联
CXL 3.0x16链路:256GB/s(单通道64GT/s,PAM4,兼容PCIe 6.0)3-8ns(板级设备间,优化后)相对PCIe Gen5提升3-4倍;功耗密度2.8W/cm²支持全缓存一致性(CXL.cache/CXL.mem模式)80%-90%(复用PCIe PHY,协议层优化压缩面积)开放生态,兼容PCIe基础设施,适用于内存扩展与加速器互联

Nvlink-C2C

NVLink-C2C技术也可用于连接同一块PCB主板或同一台服务器内、不同封装的两个独立芯片。

技术实现:通过芯片边缘的NVLink SerDes物理层接口,经由主板上的高速走线或连接器进行连接。1
特点:这种连接距离比封装内远,但仍远优于传统PCIe,用于构建多芯片、多节点的紧密耦合系统。例如,可以将多个集成了NVLink-C2C IP的定制加速器芯片在板级互联。

NVLink C2C的核心价值是打破单芯片性能瓶颈,实现多芯片(如CPU+GPU、CPU+CPU)在同一封装内的“超级芯片”级整合:
mo2n1b54.png

AMD IF

这是在同一块物理加速卡内部,连接多个GPU计算芯片(GCD)的桥梁。

作用:让一块物理GPU卡内的多个计算芯片(例如MI250X包含2个GCD)能够像单个逻辑GPU一样协同工作,共享内存一致性域。
示例:
AMD Instinct MI250X:一块双芯GPU卡,其内部的两个图形计算芯片(GCD)就是通过极高带宽的Infinity Fabric链路(四向链路,双向带宽约200GB/s) 直接互联的。这是它实现高计算密度和内存一致性的基础。
特点:带宽远高于传统的PCIe,是实现单卡内多芯片高效协同的关键。

mo2nadbs.png

PCIE (包括PCIE GEN5 、PCIE GEN6)

PCIe可以用于同一封装内Chiplet之间的通信,但这并非其最优或主要设计场景。其应用受到物理特性和协议开销的限制,主要出现在特定过渡或兼容场景中。

主要特点与限制
并非原生设计:PCIe协议设计初衷是板级或设备间通信,其物理层和协议栈包含了应对较长距离、信号完整性问题以及系统枚举的额外开销。
高延迟与较大功耗:由于上述协议开销,在极短距离的Chip-to-Chip互连中,PCIe的延迟和功耗显著高于UCIe、AIB、BoW等专为Chiplet设计的互连标准。
封装技术要求高:为了实现Chiplet间通信,需要将PCIe的SerDes(串行器/解串器)电路集成到每个Chiplet中,并在封装内布线,这对封装设计和信号完整性提出了挑战。

主要应用场景
尽管非最优,PCIe在Chiplet场景中仍有其应用价值,主要集中在以下方面:

  1. 早期集成与原型验证
    在专用Chiplet互连标准(如UCIe)成熟和普及之前,或在对峰值带宽和极致延迟要求不高的场景中,开发团队可能选择使用成熟的PCIe IP进行Chiplet间的初步集成和功能验证,以缩短开发周期。2
  2. 异构扩展与桥接
    当需要将一个基于PCIe设计的功能模块(例如,一个已验证的IP核、第三方IP或遗留设计)以Chiplet形式集成到先进封装中时,使用PCIe接口可以最大程度地避免对该模块内部架构的重新设计,实现“即插即用”。这常见于某些I/O、控制器或加速器Chiplet。2
  3. 作为上层协议载体
    更常见且重要的应用方式是,物理层采用更高效的Chiplet互连标准(如UCIe),而在协议层运行PCIe。UCIe标准原生支持PCIe作为其上层协议之一。在这种架构下,Chiplet间享受了高带宽、低延迟的物理连接,同时在软件层面呈现为标准的PCIe设备,继承了PCIe完善的生态、驱动和操作系统支持。168
  4. 系统级互联的补充
    在包含多个Chiplet的复杂封装中,可能同时存在多种互连。例如,计算核心与缓存之间采用超低延迟的专用总线,而与通用I/O Chiplet或外部内存控制器之间则可能采用PCIe,以满足不同的带宽、延迟和功能隔离需求。

PCIE CCIX

CCIX(缓存一致性互联协议)是一个旨在为CPU与加速器之间提供高性能、缓存一致互连的协议标准。它的核心目标是通过引入缓存一致性机制,简化异构系统的数据共享,降低时延,提升带宽。1

CCIX的分层架构组成
CCIX采用了分层架构设计,可以分为协议规范和传输规范两部分。

CCIX协议规范:包含协议层和链路层,负责定义缓存一致性协议、消息格式、流量控制等。
CCIX传输规范:包含事务层(CCIX和PCIe事务层)、数据链路层(PCIe数据链路层)和物理层(CCIX物理层),负责具体的数据包传输、错误校验和物理连接。23
CCIX物理层的两种实现方式
CCIX并非独立的物理接口,而是在物理层上兼容或扩展现有的高速互连标准。

兼容PCIe PHY:CCIX规范要求设备必须支持两种物理层之一。一种是PCIe PHY,即完全使用PCIe标准的物理层和电气接口。这使得CCIX可以无缝运行在标准的PCIe插槽和链路上。
扩展EDR PHY:另一种是CCIX EDR PHY。这是一种扩展模式,在原PCIe物理层基础上提升数据速率,支持20GT/s和25GT/s,以提供更高的原始带宽。
CCIX与PCIe的关系和优势
CCIX在设计上深度依赖于PCIe的成熟基础设施,并对其进行了功能扩展。

协议层面复用与扩展:CCIX构建在PCIe的数据链路层之上,定义了自身的协议层和事务层,以支持缓存一致性。它既可以传输标准的PCIe数据包,也可以传输为一致性操作优化的、开销更小的CCIX包。35
物理层面兼容与提速:CCIX可以在标准的PCIe物理层上运行,从而利用现有庞大的PCIe生态。同时,它又通过EDR模式提供了高于PCIe 4.0原生16GT/s的速率选项

CCIX协议未被正式纳入PCIe Gen5或Gen6的核心规范,它作为一个独立的互联协议,通过复用PCIe物理层来实现高速互连。CIX没有“成为”PCIe规范的一部分,而是作为一种能够运行在PCIe物理通道上的、附加的协议层存在。它需要系统中的芯片(如CPU、加速器)专门集成CCIX控制器(即CCIX协议栈)才能启用。

PCIE CXL

CXL是一种独立的逻辑协议
CXL(Compute Express Link)是一种开放标准的行业协议(即逻辑规范和数据通信规则),而非物理接口的硬件定义。它定义了主机处理器与加速器、内存扩展设备等之间进行高带宽、低延迟通信时所需的链路层、传输层及事务层协议,特别是强调了缓存一致性内存访问的语义。27

CXL复用PCIe的物理层接口
CXL协议在物理层完全复用并依赖于PCIe(特别是Gen 5及以上版本)的物理电气接口。这意味着CXL设备使用与PCIe设备相同的连接器、线缆和电气信号标准进行物理连接和数据传输。CXL利用PCIe的这种成熟物理基础来实现高速互连,从而简化了硬件设计和产业推广。125

CXL并非PCIe协议的一部分
CXL是一个与PCIe并行发展、相互协作但独立的协议。它没有成为PCIe协议的一部分。具体表现为:

协议栈独立:CXL拥有自己独特的链路层和传输层协议(如CXL.cache, CXL.mem),这些协议在通过PCIe物理层传输前,会与CXL.io协议动态复用。35
组织独立:CXL由独立的CXL联盟制定和维护,而PCIe则由PCI-SIG组织管理。两者是不同的行业标准机构。2
兼容与共存:CXL设备可通过PCIe的Flex Bus接口兼容连接。如果主机或设备不支持CXL,链接将降级为标准的PCIe操作模式,这表明两者是共存而非融合的关系

Unified BUS

Unified BUS 也可用于C2C
mo2ny1xc.png

灵衢定义为面向超节点(SuperPoD) 的统一互联协议,旨在将 I/O、内存访问、异构计算单元(CPU/NPU/GPU等)之间的通信融合到同一技术体系中,实现高性能、高协同、高弹性的计算基础设施。

UCIE

UCIE 也可以用于C2C

UCIe规范采用分层架构方法,在保持高性能的同时最大化灵活性和互操作性。在基础层面,物理层在电气层面处理芯间I/O,实现链路训练、通道修复/反转、扰码、模拟前端功能、时钟、侧带通信和配置寄存器。该层还定义通道要求并确保符合电气规范。物理层设计为适应不同的封装技术,同时保持一致的性能特性。

中间层,称为芯间适配器,作为可靠性层负责确保可靠的数据传输。当使用多个协议时,实现仲裁和多路复用,处理CRC/重试机制进行错误检测和纠正,管理链路状态转换,并支持连接设备之间的参数协商。适配器维护可访问高级功能的配置寄存器,在原始模式下可完全绕过,用于需要直接访问物理层的专用应用。这种灵活性允许标准化和定制实现在UCIe框架内共存。

在堆栈顶部,协议层支持多种接口类型,以适应多样化的使用模型。主要支持的协议是CXL/PCIe,适用于需要标准化"即插即用"功能的大量应用,如I/O附件、内存接口和加速器。这些协议利用现有软件生态系统,实现与当前系统架构的无缝集成。对于更专业的应用,UCIe还支持流式接口,可容纳AXI、CHI、SFI和CPI等专有协议。这种流式方法对于从较小芯片构建更大计算单元的扩展场景特别有价值,例如由多个较小元素组成的CPU、GPU和网络交换机。

完整规范涵盖从物理凸点/键合焊盘层到形状因素定义的互连,为跨不同封装技术和应用领域的Chiplet集成创建了全面框架。

mo2o20hz.png

0

评论 (0)

取消