AI专题十六:AI算力chiplet的die-to-die连接

hegangben
2026-04-16 / 0 评论 / 6 阅读 / 正在检测是否收录...

1 从SOC 到chiplet

Chiplet又称“小芯片”或“芯粒”,它是一种功能电路块。
Chiplet技术就是将一个功能丰富且面积较大的芯片裸片(die)拆分成多个芯粒(chiplet),并将这些具有特定功能的芯粒通过先进封装的形式组合在一起,最终形成一个系统芯片。
而目前市场主流的SoC

(英文全称是System-on-a-Chip)技术则与之相反,它是将多个负责不同功能的电路块通过光刻的形式制作到同一块芯片裸片(die)上,如手机SoC芯片,基本都集成了CPU、GPU、DSP、ISP、NPU、Modem等不同功能的计算单元和诸多的接口IP。
SoC技术和Chiplet技术的关系示意图,如下所示:
mo2cyp2r.png

SoC技术对先进的纳米工艺有着高度的依赖。像手机芯片制造工艺就越来越高,从28nm一路升级到10nm、7nm、5nm,目前正进一步走向3nm甚至更低。不过,纳米工艺已经接近物理极限,业内普遍认为半导体行业正在进入后摩尔时代,需要寻找新的技术路线。

于是,Chiplet技术被寄予厚望,很可能在未来几年成为一种主要的芯片设计形式。那么,Chiplet技术具体有哪些优点呢?

Chiplet有哪些优势?
首先,Chiplet技术把大芯片分成面积更小的芯片,有助于改善良品率,从而减少制造成本。

通常,在晶圆加工过程中,离晶圆中心越远就越容易出现坏点。因此从硅晶圆中心向外扩展,坏点数呈上升趋势,所以企业无法随心所欲地增大晶圆尺寸,否则不良率会大幅上升。

其次,SoC芯片的逻辑计算单元依赖先进制程来提高性能,其他部分通常可使用成本更低的成熟制程,SoC芯片Chiplet化之后,不同芯粒可以根据需要来选择合适的工艺制程分开制造,再通过先进封装技术进行组装,从而有效降低制造成本。

mo2czjri.png

2 chiplet die-to-die 连接方式

die-to-die 连接示意图
mo2d7hwu.png

目前主流的chiplet die-to-die 主流连接接口
mo2d9wpr.png
mo2dwyyo.png

根据下面信息,主要优先掌握ucie 、openHBI接口,了解Nvlink、Unified BUS连接。 几乎每家有实力做AI 算力芯片的公司都会搞自己私有的die-2o-die 接口。

ucie

统一Chiplet标准UCIe
在众多Chiplet互联标准中,由Intel提出的通用Chiplet互联标准(UCIe)在很短时间内就引起了业界广泛关注,目前来看最有希望成为业界统一的互联标准。UCIe是唯一具有完整裸片间接口堆栈的标准,其他标准都没有为协议栈提供完整裸片间接口的全面规范,大多仅关注在特定层。此外,UCIe不但支持有机衬底或层压板等传统封装,也可以支持2.5D和桥接等先进封装,如硅衬底、硅桥或再分配层(RDL)扇出等形式,预计未来还会支持3D封装。

UCIe协议栈本身有三层:

最上端的协议层通过基于流量控制单元(FLIT)的协议实现,确保最大效率和最低延迟,并支持多个主流协议,包括PCIe、Compute Express Link(CXL),以及用户定义的流协议。
中间的D2D适配层用于对协议进行仲裁与协商,以及通过裸片间适配器进行连接管理。基于循环冗余检查(CRC)和重试机制,该层还包括可选的错误纠正功能。
最下面的物理层(PHY)规定了与封装介质的电气接口,是电气/模拟前端(AFE)、发射器/接收器以及边带通道(Sideband)在两个裸片之间进行参数交换与协商的层级。逻辑PHY可实现连接初始化、训练和校准算法,以及测试和修复功能。
mo2db1f1.png

UCIe协议具有如下优点:

UCIe的Sideband、DDR、Forward Clock设计使得UCIe单个应用场景下的模块设计复杂度相对更低,模块验证也更加容易;
UCIe传输时延和功耗更低、速率更高、BER更低,在功耗和性能的平衡方面做得比其他协议好;
由于和PCIe/CXL的无缝对接,可以利用PCIe现有的强大生态,轻松地将板级互联扩展到封装内部;
UCIe不但支持PCIe向CXL的扩展,还支持用户自定义的Raw mode,一个D2D Adaptor 可持架接多个协议栈。
目前已经有不少国内厂商加入UCIe联盟,其中包括:阿里云、日月光、长电、华为、芯原、灿芯、芯耀辉、超摩科技、合见工软、芯和半导体、长鑫、牛芯、芯云凌、芯来科技和奎芯等。

此外,由中国计算机互连技术联盟(CCITA)发起的Chiplet标准《小芯片接口总线技术要求》在中科院计算所、工信部电子四院和国内多个芯片厂商合作推动下,也已经发布。小芯片接口总线技术的体系架构见下图,主要包括数据链路层(Data Link Layer,DLL)、物理适配层(Physical Adaptation Layer,PAL),以及物理层(Physical Layer,PHY)等。
mo2dbqru.png
此标准列出了并行总线等三种接口,提出了多种速率要求,总连接带宽可以达到1.6Tbps,以灵活应对不同的应用场景以及不同能力的技术供应商。通过对链路层、适配层、物理层的详细定义,实现在小芯片之间的互连互通,并兼顾了 PCIe 等现有协议的支持,列出了对封装方式的要求。小芯片设计不但可以使用国际先进封装方式,也可以充分利用国内通用封装技术。

BoW

ODSA正在定义一个名为Bunch of Wires (BoW)的芯片到芯片接口。BoW接口专注于解决基于有机基板的并行互连问题,BoW有BoW Base,BoW-Fast和BoW-Turbo三种类型,支持不同的传输距离和传输效率。此外,BoW支持向后兼容,并且对芯片工艺和封装技术的限制较少,不依赖于先进的基于硅的互连封装技术,具有广泛的应用范围

Bunch of Wires(BoW)是一种适合Chiplet和芯片级封装(CSP)互联的简单物理接口架构,起初是针对数据中心计算、通信和网络需求的短距离互联解决方案,后来被OCP下属的开放特定域架构(ODSA)工作组采纳为用于连接同一封装内近距离裸片互联的接口协议。跟服务器板卡之间的互联不同,芯片封装内多个裸片的互联环境相对稳定,因为距离短,信号衰减小,因此互联设计可以比较简单。其实,BoW接口设计的初衷就是要实现低实施成本、兼容不同IC工艺节点,并可灵活支持各种封装技术凸凹间距,从而满足复杂芯片的低功耗、低延迟和高吞吐量要求。

据OCP/ODSA介绍,BoW应用于Chiplet互联时具有如下优势:

比现有并行标准更高的数据速率;
适用于传统的低成本压层衬底封装及更高密度的硅interposer封装;
比采用传统的SerDes链路设计更容易实现(较低的数据传输率可以使用单端信号及更密集的线束);
兼容混合凸凹间距的封装情况。
2018年,OCP与JEDEC联合起草了CDXML (Chip Data Exchange Markup Language)规范,定义了Chiplet互联的电气、机械和散热标准。这一针对2.5D或3D堆叠Chiplet设计的规范语言采用XML格式,并借鉴了多个现有JEDEC标准,包括JEP181散热标准和JEP30-P101电气/机械和I/O标准,以及IEEE 1687测试 和IEEE 2416电源模型标准。

BoW 的开放式物理层和链路层规范旨在支持高性能 D2D 接口。关键性能指标包括每条线路高达 32Gb/s 的数据传输速率、低于 0.5pJ/bit 的能效和低于 8ns 的延迟。BoW 与各种封装和集成电路工艺的兼容性使其成为不同成本和性能设计点的通用解决方案。

发展到 BoW 2.1
为了促进开放式芯片经济的发展,BoW 正在不断改进,以满足新应用的需求,特别是在人工智能、边缘和物联网领域。即将发布的 BoW 2.1 版本将在三个关键领域引入规范扩展: 光学、内存和物联网。
BoW简化了传统SerDes的复杂性,适合短距离互联:

传统SerDes架构: BoW架构:
┌────────────┐ ┌────────────┐
│Serializer │ │ │
│ PLL │ │ Simple │
│ CDR │ │ Driver │
│ Equalizer │ │ │
└────────────┘ └────────────┘
复杂度:高 复杂度:低
功耗:>5 pJ/bit 功耗:<1 pJ/bit
关键简化:

无需时钟数据恢复(CDR)
无需均衡器
简单的单端驱动器
源同步时钟

物理层实现细节
IO单元设计:

     ┌─────────────────────┐
TX───│  Driver             │
     │  - Impedance: 50Ω   │───> Bump
     │  - Slew Rate Control│
     └─────────────────────┘
     
     ┌─────────────────────┐
RX<──│  Receiver           │<─── Bump
     │  - Comparator       │
     │  - Hysteresis: 20mV │
     └─────────────────────┘

时钟分发网络:

H-tree结构最小化偏斜
每16个数据位配1个时钟
相位插值器用于去偏斜
最大偏斜:<50ps

时钟架构深度分析
转发时钟 vs 嵌入式时钟:

转发时钟(AIB/BoW选择):

优点:简单、低功耗、确定性延迟
缺点:需要额外的时钟引脚
适用:Chiplet等确定性连接
嵌入式时钟:

优点:无需时钟引脚、灵活
缺点:需要CDR、功耗高
适用:板级互联、光通信
多时钟域处理:

Die A (1GHz)          Die B (1.5GHz)
    │                      │
    ├──> Async FIFO <──────┤
    │                      │
    └──> Clock Domain ─────┘
         Crossing (CDC)

AIB/MDIO

Advanced Interface Bus (AIB)最初由Intel开发,用于FPGA的die-to-die互联。

AIB 1.0特性(2017年):

单端信令
数据速率:2 Gbps/pin
凸点间距:55μm
功耗:0.85 pJ/bit
应用:Intel Stratix 10 FPGA
AIB 2.0改进(2019年):

数据速率:4 Gbps/pin
功耗优化:0.5 pJ/bit
增强时钟架构
DFT(Design for Test)增强

作为AIB的升级版本,MIDO提供了更高的传输效率,并且响应速度和带宽密度是AIB的两倍以上。AIB和MDIO技术主要适用于通信距离短,损耗低的2.5D和3D封装技术,例如EMIB、Foveros。
mo2dmpb1.png

LIPINCON

LIPINCON:LIPINCON是台积电多年前就开始研发的裸片之间数据互联接口技术,通过使用先进的基于硅的互连封装技术(例如InFO、CoWoS)和时序补偿技术,为Chiplet提出的高性能互连接口。LIPINCON可以在没有PLL/DLL的情况下降低功耗和占用面积。LIPINCON接口包含两种类型的PHY:PHYC和PHYM,分别用于SoC芯片和存储器/收发器芯片。

OpenHBI

OpenHBI 利用 JEDEC 的 HBM3 电气特性和 IO 类型来降低风险。它使用低电压和未端接的单端 DDR 信号来传输晶粒之间的数据。

OpenHBI 标准具有许多关键特征:

整合多个 OpenHBI 兼容 的 die-to-die 接口,实现互操作性
利用 JEDEC HBM3 IO 类型和电气特性
可与支持 HBM 存储器和 OpenHBI 标准的双模 HBM 主机控制器互操作
支持硅中介层和晶圆级集成扇出或同等技术
实现对称 die-to-die 接口
实现目标速度:每引脚 8Gbps,正迈向 12-16 Gbps
在最高数据传输速率时提供长达 3mm 的互连距离
实现小于等于 0.5pJ/bit 的功耗目标
提供大于 1.5T 位/毫米(包括发射器和接收器)的线性(边缘)带宽密度
定义 PHY 和逻辑 PHY 抽象层,轻松适配上层
支持正常的和旋转的晶粒方向
可以调整带宽和边缘(DW 数量)以匹配各种用例
支持小芯片 (Chiplet) 配置和测试 (CCT) 接口
支持通道修复,提高制造良率
OpenHBI 标准主要针对图 2 所示的下层(PHY 和逻辑 PHY 层)。然后将适配器层用于与上层(协议层)进行连接。因此,系统实现不依赖于各个应用所用的协议。

Infinity Fabric

Infinity Fabric 是AMD为其Ryzen、EPYC等产品设计的内部互连架构。它由传输数据的Infinity Scalable Data Fabric和负责控制的Infinity Scalable Control Fabric组成,连接CPU核心、GPU、内存控制器以及多die之间和多个CPU插槽之间。它本质上是AMD的专有技术,不对外开放规格,主要用于其自家产品内部的die-to-die和多socket互连.

Nvlink

VIDIA的NVLink技术可以用于chiplet内部的die-to-die连接,其具体实现形式被称为NVLink-C2C。这项技术是NVIDIA应对chiplet和异构集成趋势的核心方案。

以下是其关键特性与应用场景的详细说明:

  1. 技术形态:NVLink-C2C
    这是一种专门为芯片内部或封装内die-to-die互连而设计的物理层和互连协议技术。它脱胎于高带宽的GPU间NVLink技术,但针对短距离、超高密度的片上互连进行了优化9。
  2. 性能特点
    超高带宽与低延迟:在先进封装(如硅中介层)下,能提供高达900 GB/s的带宽,延迟极低,并支持缓存一致性9。
    高能效与面积效率:其能效比是PCIe 5.0的25倍,面积效率更是高达90倍,使其非常适合对功耗和空间极其敏感的chiplet设计9。
  3. 主要应用场景
    NVLink-C2C主要用于连接NVIDIA自家的不同计算芯粒,构建超级芯片:

CPU-CPU连接:例如在Grace Superchip中,用于连接两个Grace CPU die,形成一个统一的144核处理器9。
CPU-GPU连接:例如在Grace Hopper Superchip中,用于连接Grace CPU die和Hopper GPU die,实现CPU与GPU间的高速协同9。
为定制芯片提供接口:NVIDIA也将此技术以 “NVLink Fusion” 的形式开放授权。其他厂商(如定制AI加速器公司)可以将其Chiplet集成到自己的设计中,从而接入NVLink生态系统,与NVIDIA的GPU实现高速互连5813。

  1. 与标准互连方案的对比
    与传统(板级)NVLink的区别:传统的NVLink用于连接独立的GPU卡或板级组件,通过PCB走线或电缆传输。而NVLink-C2C是通过封装内的硅中介层或硅桥进行连接,属于片上网络级别,带宽和能效更高9。
    与开放标准(如UCIe)的关系:在chiplet互连的开放标准领域,UCIe 是主流。NVIDIA的NVLink-C2C是一种专有高性能方案,主要服务于其自身的产品生态。虽然性能卓越,但开放性不及UCIe4。
    总结
    NVLink-C2C是NVIDIA用于chiplet内部die-to-die连接的专用高性能互连技术。它已成功应用于其Grace CPU和Hopper GPU的超级芯片设计中,并通过NVLink Fusion计划向合作伙伴开放,旨在构建一个以NVLink为核心的高速异构计算生态系统

这是一个非常精准的技术命名问题。NVIDIA将其chiplet/芯片间互连技术命名为 NVLink-C2C(Chip-to-Chip),而非Die-to-Die(D2D),这一选择背后反映了其技术定位、封装层级和市场策略的深层考量。

一、 技术层级与封装范畴的区分
“Die-to-Die”通常指代的是在单个封装(Package)内部,不同硅片(裸片)之间的互连。 例如,AMD的Chiplet架构中,CCD与IOD之间的连接,或英特尔EMIB技术连接的裸片,都属于这个范畴。其特点是距离极短、功耗极低,通常依赖于硅中介层或先进封装技术实现超高密度布线。

而“Chip-to-Chip”则定义了一个更宽泛、封装层级更高的互连范畴。 它明确包含了两种场景:

单封装内裸片互连:即传统意义上的D2D。
板级芯片互连:将两个独立的、已封装好的芯片(如一个Grace CPU封装和一个Hopper GPU封装)通过基板上的超高密度布线连接在一起,形成一个更大的“超级芯片”。
NVLink-C2C的核心设计目标正是为了无缝覆盖以上两种场景。 例如在Grace Hopper超级芯片中,它既可用于连接同一封装内的计算单元,更重要的是用于连接独立的Grace CPU芯片和独立的Hopper GPU芯片,将它们整合为一个统一的内存系统。3510

二、 强调技术扩展性与通用性
使用 “Chip” 而非 “Die”,在语义和营销上更具扩展性:

“Chip”是商品化的单元:在产业链和用户认知中,CPU、GPU、DPU都是可以独立采购、封装和测试的“芯片”。命名为C2C,清晰地传达了这项技术可用于连接这些已经成型的产品级芯片,而不仅仅是制造过程中的半成品裸片。
体现技术通用性:它暗示该技术不仅可以用于NVIDIA自家芯片的互连,未来也可能开放给合作伙伴,用于连接其他符合标准的第三方芯片,构建更广泛的生态系统。这与D2D通常局限于同一家公司、同一封装内部的私有互连协议形成了概念上的区别。3
三、 与UCIe等D2D标准进行战略区分
在NVIDIA推出NVLink-C2C的同期,行业正在力推开放的UCIe标准,其核心正是Die-to-Die互连。NVIDIA选择“Chip-to-Chip”的命名,在技术话语体系上巧妙地与UCIe进行了区隔:

UCIe:定位为封装内裸片互连的开放标准,旨在实现不同厂商裸片在先进封装内的“即插即用”。1
NVLink-C2C:定位为NVIDIA私有的、更高层级的互连技术,不仅涵盖封装内,更强调封装间(板级)的超高性能一致性互联,服务于其构建“超级芯片”和庞大计算节点的整体战略。56
这种命名避免了让市场直接将其与UCIe在D2D层面进行对标,而是突出了其在性能(带宽、延迟)和系统集成度上的更高追求。6

四、 品牌与技术路线的延续
“NVLink” 本身已是NVIDIA高性能互连的金字招牌,最初用于GPU间互联,后扩展到GPU与CPU。“C2C”是其自然演进,明确了互连的物理主体从“板卡”进一步下探到了“芯片”级别。

NVLink(卡间) -> NVLink-C2C(芯片间) -> (未来可能的)更紧密集成。
这种命名保持了品牌的一致性和技术演进的清晰脉络,让开发者与合作伙伴易于理解:这是NVLink技术向更底层、更紧密集成方向的延伸。
总结
NVIDIA选择 NVLink-C2C 而非 NVLink-D2D,绝非随意之举:

技术定义更广:C2C涵盖了从封装内裸片到板级封装芯片的互连,而D2D通常特指前者。
市场定位更高:强调其用于连接完整产品级芯片,构建超级芯片系统的能力,与单纯的裸片集成区分开来。
战略区隔明显:与行业开放的UCIe(D2D)标准形成差异化竞争,突出其私有高性能技术路线。
品牌延续性强:作为NVLink家族的新成员,清晰表明了技术方向的演进。
因此,“Chip-to-Chip”是对这项技术野心和应用范围更准确、更具战略视野的命名。

Unified BUS

华为统一开放的可以用于芯片内部,die-2-top, chip-to-chip,server-to-server 的总线。
技术核心特点:

总线级互联:提供类似计算机内部总线的紧密连接能力,使得超节点内多个计算单元能够高效协同工作。

协议归一化:通过统一互联协议,解决不同计算设备间的兼容性问题,降低系统复杂度。

平等协同:超节点内各个计算单元处于平等地位,能够动态分配任务和负载。

全量池化:将计算、存储和网络资源完全池化,实现资源的灵活调度和高效利用。

大规模组网:支持极大规模计算集群组建,华为基于灵衢技术推出的超节点集群可支持50万卡至百万卡级别的算力规模。

高可用性:具备故障自动检测、隔离和恢复能力,确保大规模计算系统的高可靠性。

华为自2019年开始研究灵衢技术,目前已发布灵衢2.0技术规范并对外开放,包括《灵衢基础规范2.0》、《灵衢固件规范2.0》和《灵衢使能操作系统参考设计2.0》等核心文档

3 chiplet 的封装技术

支持Chiplet的底层封装技术

维度代表技术厂商核心特点
2DMCM (Multi-Chip Module)通用多芯片平铺在有机基板上,通过基板布线互连,成本低但密度有限
2.5DCoWoS (Chip-on-Wafer-on-Substrate)台积电通过硅中介层或 RDL 中介层实现高密度互连,分为 CoWoS-S(硅中介层)、CoWoS-R(RDL 中介层)、CoWoS-L(LSI+RDL)
EMIB (Embedded Multi-die Interconnect Bridge)Intel嵌入式硅桥技术,无需完整硅中介层,成本更低、灵活性更高
I-Cube三星分为 I-Cube S(硅中介层,类似 CoWoS)和 I-Cube E(Si Bridge + RDL,类似 EMIB)
InFO\_oS / FOCoS-B台积电 / 日月光扇出型封装,使用 RDL 重布线层作为中介层
3DSoIC (System-on-Integrated-Chips)台积电晶圆对晶圆键合,无凸点直接键合,真正的垂直 3D 堆叠
FoverosIntel有源中介层 3D 堆叠,使用 TSV 实现上下层芯片通信
X-Cube三星3D 封装技术,支持 HBM 与逻辑芯片垂直集成
Hybrid Bonding (混合键合)多家铜-铜直接键合,实现更高密度的 3D 互连

封装技术目前主要由TSMC、ASE、Intel等公司来主导,包含从2D MCM到2.5D CoWoS、EMIB和3D Hybrid Bonding。本文主要介绍目前工业界主流的2D和2.5D封装技术和其优缺点。

1. MCM(Multi-Chip Module)

mo2efcs7.png

Multi-chip Module

MCM一般是指通过Substrate(封装基板)走线将多个芯片互联的技术。通常来说走线的距离和范围可以在10mm~25mm,线距线宽大约10mm量级,单条走线带宽大约10Gbit/s量级。由于MCM可以通过基板直接连接各个芯片,通常封装的成本会相对较低,但是由于走线的线距线宽比较大,封装密度相对较低,接口速率相对较低,延时相对较大。

MCM 是 2D 封装:所有芯片平铺在基板上,通过基板走线连接,技术成熟、成本最低,但布线密度受限(线宽通常 >12μm)

2. CoWoS(Chip-on-Wafer-on-Substrate)

CoWoS是TSMC主导的,基于interposer(中间介质层)实现的2.5D封装技术,其中interposer采用成熟制程的芯片制造工艺,可以提供相比MCM更高密度和更大速率的接口。目前TSMC主流的CoWoS技术包括:

CoWoS-S:基础CoWoS技术,可以支持超高集成密度,提供不超过两倍掩膜版尺寸的interposer层,通常用于集成HBM等高速高带宽内存芯片。
mo2efst5.png

CoWoR

CoWoS-R:基于前述CoWoS-S技术,引入InFO技术中的RDL(Redistribution Layer),RDL 中介层由聚合物和铜迹线组成,具有相对机械柔韧性,而这种灵活性增强了封装连接的可靠性,并允许新封装可以扩大其尺寸以满足更复杂的功能需求,从而有效支持多个Chiplets之间进行高速可靠互联。
mo2guxra.png

CoWoS-R
CoWoS-L:在上述CoWoS-S和InFO技术的基础上,引入LSI(Local Silicon Interconnect)技术,LSI 芯片在每个产品中可以具有多种连接架构(例如 SoC 到 SoC、SoC 到小芯片、SoC 到 HBM 等),也可以重复用于多个产品,提供更灵活和可复用的多芯片互联架构。
mo2gv8d2.png

CoWoS-L
相比于MCM,CoWoS技术可以提供更高的互联带宽和更低的互联延时,从而获得更高的性能。同时,受限于interposer的尺寸(通常为2倍掩膜版最大尺寸),可以提供的封装密度上限相对比较有限,并且由于interposer的引入,需要付出额外的制造成本和更高的技术复杂度,以及随之而来的整体良率的降低。

3. EMIB(Embedded Multi-die Interconnect Bridge)

EMIB
EMIB是Intel主导的2.5D封装技术,使用多个嵌入式包含多个路由层的桥接芯片,同时内嵌至封装基板,达到高效和高密度的封装。由于不再使用interposer作为中间介质,可以去掉原有连接至interposer所需要的TSVs,以及由于interposer尺寸所带来的封装尺寸的限制,可以获得更好的灵活性和更高的集成度。
总体而言,相比于前述介绍的MCM、CoWoS和InFO/LSI技术,EMIB技术要更为优雅和经济高效,获得更高的集成度和制造良率。但是EMIB需要封装工艺配合桥接芯片,技术门槛和复杂度较高。

CoWoS、EMIB、I-Cube 都属于 2.5D 封装:
它们都通过中介层/硅桥实现比 MCM 更高密度的互连
CoWoS 使用完整硅中介层,密度最高但成本也高
EMIB 使用局部硅桥,性价比更好
I-Cube E 是三星的"类 EMIB"方案

SoIC、Foveros、X-Cube

属于 3D 封装:
实现芯片垂直堆叠,是真正的立体集成
用于 HBM 堆叠、3D Cache 等场景

"3.5D 封装"是混合概念:实际工程中常混合使用 2.5D 和 3D,例如逻辑芯片用 2.5D 放在中介层上,HBM 内存用 3D 堆叠,但这并非正式分类

4 Chiplet架构挑战和洞察

基于Chiplet的架构设计,首先要考虑不同Chiplets之间如何进行功能划分和架构定义,目前主流的设计思路大致可以分为两类:

第一类

基于功能划分到多个Chiplets,单个Chiplet不包含完整功能集合,通过不同Chiplets组合封装实现不同类型的产品,典型代表为Huawei Lego架构(Kunpeng & Ascend)、AMD Zen2/3架构。
Huawei Lego架构:采用compute die(compute + memory interface)和I/O die组合的形式进行不同Chiplets功能拆解。在compute die(CPU/AI)设计时采用先进的工艺,获得顶级的算力和能效,在I/O die设计时采用成熟工艺,在面积与先进工艺差别不大的情况下获得成本收益。并且不同的Chiplets的数量和组合形式都可以灵活搭配,从而组合出多种不同规格的云端高性能处理器产品。
mo2gxbwz.png

AMD Zen3架构:采用CCD(compute)和CIOD(memory interface + I/O)组合的形式进行不同Chiplets功能拆解。在CCD设计时采用最先进的工艺,获得顶级的算力和能效,在CIOD设计时采用成熟工艺,在面积与先进工艺差别不大的情况下获得成本收益。并且CCD本身按照两个4C8T cluster组合的形式设计,可以适应AMD从Desktop到Server的架构需求,根据场景选择CCD数量和设计对应的CIOD即可,灵活度非常高。
mo2gxvx2.png

第二类

单个Chiplet包含较为独立完整的功能集合,通过多个Chiplets级联获得性能的线性增长,典型代表为Apple M1 Ultra、Intel Sapphire rapids系列。
Apple M1 Ultra:通过Apple自研的封装技术UltraFusion来堆叠两颗M1 Max芯片,使得两颗芯片之间拥有超过2.5TB/s带宽且极低延时的互联能力。基于这个互联的延时带宽能力,可以使得M1 Ultra直接获得两倍M1 Max的算力,同时在软件层面依然可以将M1 Ultra当做一个完整芯片对待,而不会增加额外的软件修改和调试的负担。
mo2gyg1p.png

Intel Sapphire Rapids:通过两组镜像对称的相同架构的building blocks,组合4个Chiplets,获得4倍的性能和互联带宽。每个基本模块包含计算部分(CHA & LLC & Cores mesh, Accelerators)、memory interface部分(controller, Ch0/1)、I/O部分(UPI,PCIe)。通过将上述高性能组件组成基本的building block,再通过EMIB技术进行Chiplet互联,可以获得线性性能提升和成本收益。
mo2gyp9t.png

基于Chiplet的架构设计,同时要考虑多个Chiplets如何进行有效互联和扩展,实现高效灵活可扩展的架构,避免多Chiplets之间出现信号死锁、流量拥塞等功能和性能问题。由于芯片内部互联通常为可靠连接假设下的并行数据传输,而芯片之间的互联通常为不可靠连接假设下的串行数据传输,根据芯片片上和片间互联架构的组合和流量收敛情况,目前主流的设计思路和应用场景大致分为两大类:
第一类片上片间相同架构,流量全打平或基本打平。典型代表如Cerebras,采用从tile到single die到wafer scale engine完全相同的互联架构。另一个典型代表是Tesla DoJo,采用InFO-SoW的封装和芯片四边全部放置I/O接口的方式实现片内每个方向10TBps带宽,跨片每边4TBps,SoW集成后单边带宽9TBps。
mo2gz5xn.png
CS-1 Wafer Scale Engine

第二类片上片间架构相似,片间流量按照一定比例收敛。典型代表一个是前述的Huawei Bufferless Multi-Ring架构,片上流量会收敛到分布式的各个跨片接口;另一个典型代表是前述的Apple M1 Ultra,片上流量收敛到UltraFusion集中交换部分。
mo2gzyqp.png
Bufferless Multi-Ring

从计算负载的角度,当单个计算任务计算密度较高,超出单芯片算力范围的时候,需要多个芯片协同来完成,此时跨片数据交互也需要提供和片上数量级相当的带宽和延时,才能更有效利用算力,提高计算效率。典型的任务类型是AI的训练任务,前述Cerebras和DoJo的互联架构对这类场景有较强优势。当计算任务数量庞大,单个任务负载较小,跨片流量通常是要远小于片上流量的,此时采用流量收敛策略更为合适。

0

评论 (0)

取消