分类原型与样片验证下的文章 - 欢迎来到半导体与芯片的世界

登录

标签搜索

bennyhe

累计撰写 378 篇文章
累计收到 31 条评论

搜索到 10 篇与的结果

2026-04-16
AI专题十六：AI算力chiplet的die-to-die连接 1 从SOC 到chipletChiplet又称“小芯片”或“芯粒”，它是一种功能电路块。Chiplet技术就是将一个功能丰富且面积较大的芯片裸片（die）拆分成多个芯粒（chiplet），并将这些具有特定功能的芯粒通过先进封装的形式组合在一起，最终形成一个系统芯片。而目前市场主流的SoC（英文全称是System-on-a-Chip）技术则与之相反，它是将多个负责不同功能的电路块通过光刻的形式制作到同一块芯片裸片（die）上，如手机SoC芯片，基本都集成了CPU、GPU、DSP、ISP、NPU、Modem等不同功能的计算单元和诸多的接口IP。SoC技术和Chiplet技术的关系示意图，如下所示：SoC技术对先进的纳米工艺有着高度的依赖。像手机芯片制造工艺就越来越高，从28nm一路升级到10nm、7nm、5nm，目前正进一步走向3nm甚至更低。不过，纳米工艺已经接近物理极限，业内普遍认为半导体行业正在进入后摩尔时代，需要寻找新的技术路线。于是，Chiplet技术被寄予厚望，很可能在未来几年成为一种主要的芯片设计形式。那么，Chiplet技术具体有哪些优点呢？Chiplet有哪些优势？首先，Chiplet技术把大芯片分成面积更小的芯片，有助于改善良品率，从而减少制造成本。通常，在晶圆加工过程中，离晶圆中心越远就越容易出现坏点。因此从硅晶圆中心向外扩展，坏点数呈上升趋势，所以企业无法随心所欲地增大晶圆尺寸，否则不良率会大幅上升。其次，SoC芯片的逻辑计算单元依赖先进制程来提高性能，其他部分通常可使用成本更低的成熟制程，SoC芯片Chiplet化之后，不同芯粒可以根据需要来选择合适的工艺制程分开制造，再通过先进封装技术进行组装，从而有效降低制造成本。2 chiplet die-to-die 连接方式die-to-die 连接示意图目前主流的chiplet die-to-die 主流连接接口根据下面信息，主要优先掌握ucie 、openHBI接口，了解Nvlink、Unified BUS连接。几乎每家有实力做AI 算力芯片的公司都会搞自己私有的die-2o-die 接口。ucie统一Chiplet标准UCIe在众多Chiplet互联标准中，由Intel提出的通用Chiplet互联标准（UCIe）在很短时间内就引起了业界广泛关注，目前来看最有希望成为业界统一的互联标准。UCIe是唯一具有完整裸片间接口堆栈的标准，其他标准都没有为协议栈提供完整裸片间接口的全面规范，大多仅关注在特定层。此外，UCIe不但支持有机衬底或层压板等传统封装，也可以支持2.5D和桥接等先进封装，如硅衬底、硅桥或再分配层（RDL）扇出等形式，预计未来还会支持3D封装。UCIe协议栈本身有三层：最上端的协议层通过基于流量控制单元（FLIT）的协议实现，确保最大效率和最低延迟，并支持多个主流协议，包括PCIe、Compute Express Link（CXL），以及用户定义的流协议。中间的D2D适配层用于对协议进行仲裁与协商，以及通过裸片间适配器进行连接管理。基于循环冗余检查（CRC）和重试机制，该层还包括可选的错误纠正功能。最下面的物理层（PHY）规定了与封装介质的电气接口，是电气/模拟前端（AFE）、发射器/接收器以及边带通道（Sideband）在两个裸片之间进行参数交换与协商的层级。逻辑PHY可实现连接初始化、训练和校准算法，以及测试和修复功能。UCIe协议具有如下优点：UCIe的Sideband、DDR、Forward Clock设计使得UCIe单个应用场景下的模块设计复杂度相对更低，模块验证也更加容易；UCIe传输时延和功耗更低、速率更高、BER更低，在功耗和性能的平衡方面做得比其他协议好；由于和PCIe/CXL的无缝对接，可以利用PCIe现有的强大生态，轻松地将板级互联扩展到封装内部；UCIe不但支持PCIe向CXL的扩展，还支持用户自定义的Raw mode，一个D2D Adaptor 可持架接多个协议栈。目前已经有不少国内厂商加入UCIe联盟，其中包括：阿里云、日月光、长电、华为、芯原、灿芯、芯耀辉、超摩科技、合见工软、芯和半导体、长鑫、牛芯、芯云凌、芯来科技和奎芯等。此外，由中国计算机互连技术联盟（CCITA）发起的Chiplet标准《小芯片接口总线技术要求》在中科院计算所、工信部电子四院和国内多个芯片厂商合作推动下，也已经发布。小芯片接口总线技术的体系架构见下图，主要包括数据链路层(Data Link Layer，DLL)、物理适配层(Physical Adaptation Layer，PAL)，以及物理层(Physical Layer，PHY)等。此标准列出了并行总线等三种接口，提出了多种速率要求，总连接带宽可以达到1.6Tbps，以灵活应对不同的应用场景以及不同能力的技术供应商。通过对链路层、适配层、物理层的详细定义，实现在小芯片之间的互连互通，并兼顾了 PCIe 等现有协议的支持，列出了对封装方式的要求。小芯片设计不但可以使用国际先进封装方式，也可以充分利用国内通用封装技术。BoWODSA正在定义一个名为Bunch of Wires (BoW)的芯片到芯片接口。BoW接口专注于解决基于有机基板的并行互连问题，BoW有BoW Base，BoW-Fast和BoW-Turbo三种类型，支持不同的传输距离和传输效率。此外，BoW支持向后兼容，并且对芯片工艺和封装技术的限制较少，不依赖于先进的基于硅的互连封装技术，具有广泛的应用范围Bunch of Wires（BoW）是一种适合Chiplet和芯片级封装（CSP）互联的简单物理接口架构，起初是针对数据中心计算、通信和网络需求的短距离互联解决方案，后来被OCP下属的开放特定域架构（ODSA）工作组采纳为用于连接同一封装内近距离裸片互联的接口协议。跟服务器板卡之间的互联不同，芯片封装内多个裸片的互联环境相对稳定，因为距离短，信号衰减小，因此互联设计可以比较简单。其实，BoW接口设计的初衷就是要实现低实施成本、兼容不同IC工艺节点，并可灵活支持各种封装技术凸凹间距，从而满足复杂芯片的低功耗、低延迟和高吞吐量要求。据OCP/ODSA介绍，BoW应用于Chiplet互联时具有如下优势：比现有并行标准更高的数据速率；适用于传统的低成本压层衬底封装及更高密度的硅interposer封装；比采用传统的SerDes链路设计更容易实现（较低的数据传输率可以使用单端信号及更密集的线束）；兼容混合凸凹间距的封装情况。2018年，OCP与JEDEC联合起草了CDXML (Chip Data Exchange Markup Language)规范，定义了Chiplet互联的电气、机械和散热标准。这一针对2.5D或3D堆叠Chiplet设计的规范语言采用XML格式，并借鉴了多个现有JEDEC标准，包括JEP181散热标准和JEP30-P101电气/机械和I/O标准，以及IEEE 1687测试和IEEE 2416电源模型标准。BoW 的开放式物理层和链路层规范旨在支持高性能 D2D 接口。关键性能指标包括每条线路高达 32Gb/s 的数据传输速率、低于 0.5pJ/bit 的能效和低于 8ns 的延迟。BoW 与各种封装和集成电路工艺的兼容性使其成为不同成本和性能设计点的通用解决方案。发展到 BoW 2.1为了促进开放式芯片经济的发展，BoW 正在不断改进，以满足新应用的需求，特别是在人工智能、边缘和物联网领域。即将发布的 BoW 2.1 版本将在三个关键领域引入规范扩展：光学、内存和物联网。BoW简化了传统SerDes的复杂性，适合短距离互联：传统SerDes架构： BoW架构：┌────────────┐ ┌────────────┐│Serializer │ │ ││ PLL │ │ Simple ││ CDR │ │ Driver ││ Equalizer │ │ │└────────────┘ └────────────┘复杂度：高复杂度：低功耗：>5 pJ/bit 功耗：<1 pJ/bit关键简化：无需时钟数据恢复（CDR）无需均衡器简单的单端驱动器源同步时钟物理层实现细节IO单元设计： ┌─────────────────────┐ TX───│ Driver │ │ - Impedance: 50Ω │───> Bump │ - Slew Rate Control│ └─────────────────────┘ ┌─────────────────────┐ RX<──│ Receiver │<─── Bump │ - Comparator │ │ - Hysteresis: 20mV │ └─────────────────────┘时钟分发网络：H-tree结构最小化偏斜每16个数据位配1个时钟相位插值器用于去偏斜最大偏斜：<50ps时钟架构深度分析转发时钟 vs 嵌入式时钟：转发时钟（AIB/BoW选择）：优点：简单、低功耗、确定性延迟缺点：需要额外的时钟引脚适用：Chiplet等确定性连接嵌入式时钟：优点：无需时钟引脚、灵活缺点：需要CDR、功耗高适用：板级互联、光通信多时钟域处理：Die A (1GHz) Die B (1.5GHz) │ │ ├──> Async FIFO <──────┤ │ │ └──> Clock Domain ─────┘ Crossing (CDC)AIB/MDIOAdvanced Interface Bus (AIB)最初由Intel开发，用于FPGA的die-to-die互联。AIB 1.0特性（2017年）：单端信令数据速率：2 Gbps/pin凸点间距：55μm功耗：0.85 pJ/bit应用：Intel Stratix 10 FPGAAIB 2.0改进（2019年）：数据速率：4 Gbps/pin功耗优化：0.5 pJ/bit增强时钟架构DFT（Design for Test）增强作为AIB的升级版本，MIDO提供了更高的传输效率，并且响应速度和带宽密度是AIB的两倍以上。AIB和MDIO技术主要适用于通信距离短，损耗低的2.5D和3D封装技术，例如EMIB、Foveros。LIPINCONLIPINCON：LIPINCON是台积电多年前就开始研发的裸片之间数据互联接口技术，通过使用先进的基于硅的互连封装技术（例如InFO、CoWoS）和时序补偿技术，为Chiplet提出的高性能互连接口。LIPINCON可以在没有PLL/DLL的情况下降低功耗和占用面积。LIPINCON接口包含两种类型的PHY：PHYC和PHYM，分别用于SoC芯片和存储器/收发器芯片。OpenHBIOpenHBI 利用 JEDEC 的 HBM3 电气特性和 IO 类型来降低风险。它使用低电压和未端接的单端 DDR 信号来传输晶粒之间的数据。OpenHBI 标准具有许多关键特征：整合多个 OpenHBI 兼容的 die-to-die 接口，实现互操作性利用 JEDEC HBM3 IO 类型和电气特性可与支持 HBM 存储器和 OpenHBI 标准的双模 HBM 主机控制器互操作支持硅中介层和晶圆级集成扇出或同等技术实现对称 die-to-die 接口实现目标速度：每引脚 8Gbps，正迈向 12-16 Gbps在最高数据传输速率时提供长达 3mm 的互连距离实现小于等于 0.5pJ/bit 的功耗目标提供大于 1.5T 位/毫米（包括发射器和接收器）的线性（边缘）带宽密度定义 PHY 和逻辑 PHY 抽象层，轻松适配上层支持正常的和旋转的晶粒方向可以调整带宽和边缘（DW 数量）以匹配各种用例支持小芯片 (Chiplet) 配置和测试 (CCT) 接口支持通道修复，提高制造良率OpenHBI 标准主要针对图 2 所示的下层（PHY 和逻辑 PHY 层）。然后将适配器层用于与上层（协议层）进行连接。因此，系统实现不依赖于各个应用所用的协议。Infinity FabricInfinity Fabric 是AMD为其Ryzen、EPYC等产品设计的内部互连架构。它由传输数据的Infinity Scalable Data Fabric和负责控制的Infinity Scalable Control Fabric组成，连接CPU核心、GPU、内存控制器以及多die之间和多个CPU插槽之间。它本质上是AMD的专有技术，不对外开放规格，主要用于其自家产品内部的die-to-die和多socket互连.NvlinkVIDIA的NVLink技术可以用于chiplet内部的die-to-die连接，其具体实现形式被称为NVLink-C2C。这项技术是NVIDIA应对chiplet和异构集成趋势的核心方案。以下是其关键特性与应用场景的详细说明：技术形态：NVLink-C2C这是一种专门为芯片内部或封装内die-to-die互连而设计的物理层和互连协议技术。它脱胎于高带宽的GPU间NVLink技术，但针对短距离、超高密度的片上互连进行了优化9。性能特点超高带宽与低延迟：在先进封装（如硅中介层）下，能提供高达900 GB/s的带宽，延迟极低，并支持缓存一致性9。高能效与面积效率：其能效比是PCIe 5.0的25倍，面积效率更是高达90倍，使其非常适合对功耗和空间极其敏感的chiplet设计9。主要应用场景NVLink-C2C主要用于连接NVIDIA自家的不同计算芯粒，构建超级芯片：CPU-CPU连接：例如在Grace Superchip中，用于连接两个Grace CPU die，形成一个统一的144核处理器9。CPU-GPU连接：例如在Grace Hopper Superchip中，用于连接Grace CPU die和Hopper GPU die，实现CPU与GPU间的高速协同9。为定制芯片提供接口：NVIDIA也将此技术以 “NVLink Fusion” 的形式开放授权。其他厂商（如定制AI加速器公司）可以将其Chiplet集成到自己的设计中，从而接入NVLink生态系统，与NVIDIA的GPU实现高速互连5813。与标准互连方案的对比与传统（板级）NVLink的区别：传统的NVLink用于连接独立的GPU卡或板级组件，通过PCB走线或电缆传输。而NVLink-C2C是通过封装内的硅中介层或硅桥进行连接，属于片上网络级别，带宽和能效更高9。与开放标准（如UCIe）的关系：在chiplet互连的开放标准领域，UCIe 是主流。NVIDIA的NVLink-C2C是一种专有高性能方案，主要服务于其自身的产品生态。虽然性能卓越，但开放性不及UCIe4。总结NVLink-C2C是NVIDIA用于chiplet内部die-to-die连接的专用高性能互连技术。它已成功应用于其Grace CPU和Hopper GPU的超级芯片设计中，并通过NVLink Fusion计划向合作伙伴开放，旨在构建一个以NVLink为核心的高速异构计算生态系统这是一个非常精准的技术命名问题。NVIDIA将其chiplet/芯片间互连技术命名为 NVLink-C2C（Chip-to-Chip），而非Die-to-Die（D2D），这一选择背后反映了其技术定位、封装层级和市场策略的深层考量。一、技术层级与封装范畴的区分“Die-to-Die”通常指代的是在单个封装（Package）内部，不同硅片（裸片）之间的互连。例如，AMD的Chiplet架构中，CCD与IOD之间的连接，或英特尔EMIB技术连接的裸片，都属于这个范畴。其特点是距离极短、功耗极低，通常依赖于硅中介层或先进封装技术实现超高密度布线。而“Chip-to-Chip”则定义了一个更宽泛、封装层级更高的互连范畴。它明确包含了两种场景：单封装内裸片互连：即传统意义上的D2D。板级芯片互连：将两个独立的、已封装好的芯片（如一个Grace CPU封装和一个Hopper GPU封装）通过基板上的超高密度布线连接在一起，形成一个更大的“超级芯片”。NVLink-C2C的核心设计目标正是为了无缝覆盖以上两种场景。例如在Grace Hopper超级芯片中，它既可用于连接同一封装内的计算单元，更重要的是用于连接独立的Grace CPU芯片和独立的Hopper GPU芯片，将它们整合为一个统一的内存系统。3510二、强调技术扩展性与通用性使用 “Chip” 而非 “Die”，在语义和营销上更具扩展性：“Chip”是商品化的单元：在产业链和用户认知中，CPU、GPU、DPU都是可以独立采购、封装和测试的“芯片”。命名为C2C，清晰地传达了这项技术可用于连接这些已经成型的产品级芯片，而不仅仅是制造过程中的半成品裸片。体现技术通用性：它暗示该技术不仅可以用于NVIDIA自家芯片的互连，未来也可能开放给合作伙伴，用于连接其他符合标准的第三方芯片，构建更广泛的生态系统。这与D2D通常局限于同一家公司、同一封装内部的私有互连协议形成了概念上的区别。3三、与UCIe等D2D标准进行战略区分在NVIDIA推出NVLink-C2C的同期，行业正在力推开放的UCIe标准，其核心正是Die-to-Die互连。NVIDIA选择“Chip-to-Chip”的命名，在技术话语体系上巧妙地与UCIe进行了区隔：UCIe：定位为封装内裸片互连的开放标准，旨在实现不同厂商裸片在先进封装内的“即插即用”。1NVLink-C2C：定位为NVIDIA私有的、更高层级的互连技术，不仅涵盖封装内，更强调封装间（板级）的超高性能一致性互联，服务于其构建“超级芯片”和庞大计算节点的整体战略。56这种命名避免了让市场直接将其与UCIe在D2D层面进行对标，而是突出了其在性能（带宽、延迟）和系统集成度上的更高追求。6四、品牌与技术路线的延续“NVLink” 本身已是NVIDIA高性能互连的金字招牌，最初用于GPU间互联，后扩展到GPU与CPU。“C2C”是其自然演进，明确了互连的物理主体从“板卡”进一步下探到了“芯片”级别。NVLink（卡间） -> NVLink-C2C（芯片间） -> （未来可能的）更紧密集成。这种命名保持了品牌的一致性和技术演进的清晰脉络，让开发者与合作伙伴易于理解：这是NVLink技术向更底层、更紧密集成方向的延伸。总结NVIDIA选择 NVLink-C2C 而非 NVLink-D2D，绝非随意之举：技术定义更广：C2C涵盖了从封装内裸片到板级封装芯片的互连，而D2D通常特指前者。市场定位更高：强调其用于连接完整产品级芯片，构建超级芯片系统的能力，与单纯的裸片集成区分开来。战略区隔明显：与行业开放的UCIe（D2D）标准形成差异化竞争，突出其私有高性能技术路线。品牌延续性强：作为NVLink家族的新成员，清晰表明了技术方向的演进。因此，“Chip-to-Chip”是对这项技术野心和应用范围更准确、更具战略视野的命名。Unified BUS华为统一开放的可以用于芯片内部，die-2-top， chip-to-chip，server-to-server 的总线。技术核心特点：总线级互联：提供类似计算机内部总线的紧密连接能力，使得超节点内多个计算单元能够高效协同工作。协议归一化：通过统一互联协议，解决不同计算设备间的兼容性问题，降低系统复杂度。平等协同：超节点内各个计算单元处于平等地位，能够动态分配任务和负载。全量池化：将计算、存储和网络资源完全池化，实现资源的灵活调度和高效利用。大规模组网：支持极大规模计算集群组建，华为基于灵衢技术推出的超节点集群可支持50万卡至百万卡级别的算力规模。高可用性：具备故障自动检测、隔离和恢复能力，确保大规模计算系统的高可靠性。华为自2019年开始研究灵衢技术，目前已发布灵衢2.0技术规范并对外开放，包括《灵衢基础规范2.0》、《灵衢固件规范2.0》和《灵衢使能操作系统参考设计2.0》等核心文档3 chiplet 的封装技术支持Chiplet的底层封装技术维度代表技术厂商核心特点2DMCM (Multi-Chip Module)通用多芯片平铺在有机基板上，通过基板布线互连，成本低但密度有限2.5DCoWoS (Chip-on-Wafer-on-Substrate)台积电通过硅中介层或 RDL 中介层实现高密度互连，分为 CoWoS-S（硅中介层）、CoWoS-R（RDL 中介层）、CoWoS-L（LSI+RDL） EMIB (Embedded Multi-die Interconnect Bridge)Intel嵌入式硅桥技术，无需完整硅中介层，成本更低、灵活性更高 I-Cube三星分为 I-Cube S（硅中介层，类似 CoWoS）和 I-Cube E（Si Bridge + RDL，类似 EMIB） InFO\_oS / FOCoS-B台积电 / 日月光扇出型封装，使用 RDL 重布线层作为中介层3DSoIC (System-on-Integrated-Chips)台积电晶圆对晶圆键合，无凸点直接键合，真正的垂直 3D 堆叠 FoverosIntel有源中介层 3D 堆叠，使用 TSV 实现上下层芯片通信 X-Cube三星3D 封装技术，支持 HBM 与逻辑芯片垂直集成 Hybrid Bonding (混合键合)多家铜-铜直接键合，实现更高密度的 3D 互连封装技术目前主要由TSMC、ASE、Intel等公司来主导，包含从2D MCM到2.5D CoWoS、EMIB和3D Hybrid Bonding。本文主要介绍目前工业界主流的2D和2.5D封装技术和其优缺点。1. MCM（Multi-Chip Module）Multi-chip ModuleMCM一般是指通过Substrate（封装基板）走线将多个芯片互联的技术。通常来说走线的距离和范围可以在10mm~25mm，线距线宽大约10mm量级，单条走线带宽大约10Gbit/s量级。由于MCM可以通过基板直接连接各个芯片，通常封装的成本会相对较低，但是由于走线的线距线宽比较大，封装密度相对较低，接口速率相对较低，延时相对较大。MCM 是 2D 封装：所有芯片平铺在基板上，通过基板走线连接，技术成熟、成本最低，但布线密度受限（线宽通常 >12μm）2. CoWoS(Chip-on-Wafer-on-Substrate)CoWoS是TSMC主导的，基于interposer（中间介质层）实现的2.5D封装技术，其中interposer采用成熟制程的芯片制造工艺，可以提供相比MCM更高密度和更大速率的接口。目前TSMC主流的CoWoS技术包括：CoWoS-S：基础CoWoS技术，可以支持超高集成密度，提供不超过两倍掩膜版尺寸的interposer层，通常用于集成HBM等高速高带宽内存芯片。CoWoRCoWoS-R：基于前述CoWoS-S技术，引入InFO技术中的RDL（Redistribution Layer），RDL 中介层由聚合物和铜迹线组成，具有相对机械柔韧性，而这种灵活性增强了封装连接的可靠性，并允许新封装可以扩大其尺寸以满足更复杂的功能需求，从而有效支持多个Chiplets之间进行高速可靠互联。CoWoS-RCoWoS-L：在上述CoWoS-S和InFO技术的基础上，引入LSI（Local Silicon Interconnect）技术，LSI 芯片在每个产品中可以具有多种连接架构（例如 SoC 到 SoC、SoC 到小芯片、SoC 到 HBM 等），也可以重复用于多个产品，提供更灵活和可复用的多芯片互联架构。CoWoS-L相比于MCM，CoWoS技术可以提供更高的互联带宽和更低的互联延时，从而获得更高的性能。同时，受限于interposer的尺寸（通常为2倍掩膜版最大尺寸），可以提供的封装密度上限相对比较有限，并且由于interposer的引入，需要付出额外的制造成本和更高的技术复杂度，以及随之而来的整体良率的降低。3. EMIB(Embedded Multi-die Interconnect Bridge)EMIBEMIB是Intel主导的2.5D封装技术，使用多个嵌入式包含多个路由层的桥接芯片，同时内嵌至封装基板，达到高效和高密度的封装。由于不再使用interposer作为中间介质，可以去掉原有连接至interposer所需要的TSVs，以及由于interposer尺寸所带来的封装尺寸的限制，可以获得更好的灵活性和更高的集成度。总体而言，相比于前述介绍的MCM、CoWoS和InFO/LSI技术，EMIB技术要更为优雅和经济高效，获得更高的集成度和制造良率。但是EMIB需要封装工艺配合桥接芯片，技术门槛和复杂度较高。CoWoS、EMIB、I-Cube 都属于 2.5D 封装：它们都通过中介层/硅桥实现比 MCM 更高密度的互连CoWoS 使用完整硅中介层，密度最高但成本也高EMIB 使用局部硅桥，性价比更好I-Cube E 是三星的"类 EMIB"方案SoIC、Foveros、X-Cube属于 3D 封装：实现芯片垂直堆叠，是真正的立体集成用于 HBM 堆叠、3D Cache 等场景"3.5D 封装"是混合概念：实际工程中常混合使用 2.5D 和 3D，例如逻辑芯片用 2.5D 放在中介层上，HBM 内存用 3D 堆叠，但这并非正式分类4 Chiplet架构挑战和洞察基于Chiplet的架构设计，首先要考虑不同Chiplets之间如何进行功能划分和架构定义，目前主流的设计思路大致可以分为两类：第一类基于功能划分到多个Chiplets，单个Chiplet不包含完整功能集合，通过不同Chiplets组合封装实现不同类型的产品，典型代表为Huawei Lego架构（Kunpeng & Ascend）、AMD Zen2/3架构。Huawei Lego架构：采用compute die（compute + memory interface）和I/O die组合的形式进行不同Chiplets功能拆解。在compute die（CPU/AI）设计时采用先进的工艺，获得顶级的算力和能效，在I/O die设计时采用成熟工艺，在面积与先进工艺差别不大的情况下获得成本收益。并且不同的Chiplets的数量和组合形式都可以灵活搭配，从而组合出多种不同规格的云端高性能处理器产品。AMD Zen3架构：采用CCD（compute）和CIOD（memory interface + I/O）组合的形式进行不同Chiplets功能拆解。在CCD设计时采用最先进的工艺，获得顶级的算力和能效，在CIOD设计时采用成熟工艺，在面积与先进工艺差别不大的情况下获得成本收益。并且CCD本身按照两个4C8T cluster组合的形式设计，可以适应AMD从Desktop到Server的架构需求，根据场景选择CCD数量和设计对应的CIOD即可，灵活度非常高。第二类单个Chiplet包含较为独立完整的功能集合，通过多个Chiplets级联获得性能的线性增长，典型代表为Apple M1 Ultra、Intel Sapphire rapids系列。Apple M1 Ultra：通过Apple自研的封装技术UltraFusion来堆叠两颗M1 Max芯片，使得两颗芯片之间拥有超过2.5TB/s带宽且极低延时的互联能力。基于这个互联的延时带宽能力，可以使得M1 Ultra直接获得两倍M1 Max的算力，同时在软件层面依然可以将M1 Ultra当做一个完整芯片对待，而不会增加额外的软件修改和调试的负担。Intel Sapphire Rapids：通过两组镜像对称的相同架构的building blocks，组合4个Chiplets，获得4倍的性能和互联带宽。每个基本模块包含计算部分（CHA & LLC & Cores mesh， Accelerators）、memory interface部分（controller， Ch0/1）、I/O部分（UPI，PCIe）。通过将上述高性能组件组成基本的building block，再通过EMIB技术进行Chiplet互联，可以获得线性性能提升和成本收益。基于Chiplet的架构设计，同时要考虑多个Chiplets如何进行有效互联和扩展，实现高效灵活可扩展的架构，避免多Chiplets之间出现信号死锁、流量拥塞等功能和性能问题。由于芯片内部互联通常为可靠连接假设下的并行数据传输，而芯片之间的互联通常为不可靠连接假设下的串行数据传输，根据芯片片上和片间互联架构的组合和流量收敛情况，目前主流的设计思路和应用场景大致分为两大类：第一类片上片间相同架构，流量全打平或基本打平。典型代表如Cerebras，采用从tile到single die到wafer scale engine完全相同的互联架构。另一个典型代表是Tesla DoJo，采用InFO-SoW的封装和芯片四边全部放置I/O接口的方式实现片内每个方向10TBps带宽，跨片每边4TBps，SoW集成后单边带宽9TBps。CS-1 Wafer Scale Engine第二类片上片间架构相似，片间流量按照一定比例收敛。典型代表一个是前述的Huawei Bufferless Multi-Ring架构，片上流量会收敛到分布式的各个跨片接口；另一个典型代表是前述的Apple M1 Ultra，片上流量收敛到UltraFusion集中交换部分。Bufferless Multi-Ring从计算负载的角度，当单个计算任务计算密度较高，超出单芯片算力范围的时候，需要多个芯片协同来完成，此时跨片数据交互也需要提供和片上数量级相当的带宽和延时，才能更有效利用算力，提高计算效率。典型的任务类型是AI的训练任务，前述Cerebras和DoJo的互联架构对这类场景有较强优势。当计算任务数量庞大，单个任务负载较小，跨片流量通常是要远小于片上流量的，此时采用流量收敛策略更为合适。
- 2026年04月16日
- 6 阅读
- 0 评论
- 0 点赞
2026-04-16
AI专题十五：AI算力卡互联备注：未来主要是看Nvlink、UAlink、Unified Bus在 AI 训练和推理中，单卡性能固然重要，但当模型规模、数据量持续膨胀时，模型参数到达几十亿甚至上千亿参数，单张 GPU 的显存与算力已无法独立承载训练、推理任务，多卡并行成为唯一选择。这时候，卡与卡之间的互联带宽、延迟、拓扑结构就成了制约整体性能的关键瓶颈。（图源：GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站）本文主要介绍节点内部的GPU互联，节点间的GPU互联涉及网络部分，后面开新篇详细讲解。大模型训练时，模型的权重矩阵被切分到不同 GPU，每次前向/反向传播都要交换激活或梯度。这种通信量大但延迟敏感的场景，放在节点内更高效，因此单节点内，会经常有张量并行的场景。这种高带宽、低延迟的互联需求，也催生了GPU互联技术的发展。1、PCIe最初，大家都使用PCIe 进行互联，GPU 插卡通过 PCIe 接入主板，生态成熟、通用性强、设备即插即用。（图源：《电子发烧友》）但随着模型规模不断增大，PCIe 的带宽逐渐显得不足。以某PCIE GPU服务器为例，每个CPU下连接一个PCIe Switch芯片，每个PCIe Switch芯片连接5张GPU。GPU0-GPU3、GPU4-GPU7的两组GPU，内部可以通过PCIe switch通信，但如果需要跨组通信，只能通过CPU之间UPI来进行（GPU 1 -> PCIe 总线 -> CPU -> PCIe 总线 -> GPU 8）。（图源：元脑®服务器 NF5468G7 系列技术白皮书）不过，即使是最新的PCIe 技术，提供的带宽也有限。PCIe 4.0 x16 单向带宽约 32 GB/s，PCIe 5.0 64 GB/s。相比 GPU 内部早已上TB/s的显存带宽，这显然成了“木桶效应”中的短板，成了拉低通信效率的瓶颈。为了解决这一瓶颈，GPU 厂商开始探索专门的GPU互联通道。2、英伟达NVLinkNVLink首次作为GPU互联技术随NVIDIA P100 GPU推出，此后与每一代新的NVIDIA GPU架构同步发展。从最初的简单GPU-GPU连接，到如今的全系统互联解决方案，NVLink已经成为高性能GPU互联的代名词。2016年，NVLink 1.0 与 P100 GPU 一同发布（顺便说一句，Tesla P100也是全球首个支持高带宽 HBM2 内存技术的 GPU 架构），一张 GPU 支持最多 4 条 NVLink，每条链路双带宽约 40 GB/s ，整个芯片的总双向带宽达到了 160GB/s，大大突破了PCIe 3.0 带宽限制（PCIe 3.0 x16 双向仅 ~32 GB/s）。2017 年，NVLink 2.0 随 V100 (Volta 架构) 推出，每条链路双向带宽提升至 50 GB/s，单卡支持 6 条链路，总带宽最高 300 GB/s。NVLink2.0 技术虽然大大提高了带宽，但是单服务器中 8 个 GPU仍然无法做到全连接，为解决该问题，NVIDIA 在V100发布同年，发布了 NVSwitch，实现了 NVLink 的全连接。GPU所有的端口都用于与SW互联，数据在所有NVLink通道上交错传输，支持任意两块 GPU 之间的全带宽，NVLinks 的总带宽未超，对单个 GPU 的传输就不会阻塞。到如今，NVLink已经发展到了第五代，几乎每一代的带宽都是翻倍增长，最新的第五代性能已经高达1.8T/s。第五代NVIDIA NVSwitch更是配备144 个NVLink 端口，无阻塞交换能力达到了14.4 TB/s。备注：NVLink 和 NVSwitch 是英伟达（NVIDIA）为解决高性能计算和人工智能（AI）场景下多 GPU 间通信瓶颈而设计的两项核心技术。它们虽然紧密相关，但角色和功能有本质区别。下面从基础概念、功能定位、技术演进、工作原理和实际应用等方面进行详细分析。NVLink：点对点连接最初设计用于替代带宽受限的 PCIe 接口。支持两个设备（如 GPU-GPU 或 GPU-CPU）之间直接通信，提供远高于 PCIe 的带宽和更低的延迟。例如：两张 A100 GPU 通过 NVLink 直连，可实现高达 600 GB/s 的双向带宽（A100 SXM4）。NVSwitch：全互连拓扑构建者解决多 GPU 系统中“无法全互联”的问题。在一个服务器内（如 DGX 系统），NVSwitch 芯片允许多个 GPU（如 8 个或 16 个）通过 NVLink 连接到同一个交换矩阵上，实现“每个 GPU 都能直接与其它所有 GPU 通信”。消除了传统 PCIe Switch 或树状拓扑中的通信瓶颈。3、AMD Infinity FabricAMD 2017年随Ryzen/EPYC 首次提出Infinity Fabric，是一种专有的系统互联架构，用于促进所有连接组件之间的数据和控制传输。目前，Infinity Fabric已经进入了第四代，每条 Infinity Fabric 链路支持高达 32 Gbps 的传输速率，提供 128 GB/s 的双向带宽（跟PCIe 5.0很像呢）。主要为环形或者网状拓扑。4、国产厂商互联技术国产芯片厂商的资料一般不公开，以下内容也是基于互联网资料整理的。华为昇腾HCCS昇腾 910B（尤其是 910B2）使用的是 HCCS 高速缓存一致性系统，相当于华为版本的 NVLink，专门用于芯片间高速通信与缓存一致性，卡间互连带宽为约 392 GB/s。华为unified bus衢定义为面向超节点（SuperPoD）的统一互联协议，旨在将 I/O、内存访问、异构计算单元（CPU/NPU/GPU等）之间的通信融合到同一技术体系中，实现高性能、高协同、高弹性的计算基础设施。寒武纪 MLU-Link™多芯互联技术（公开资料比较老）MLU370-X8智能加速卡支持MLU-Link™多芯互联技术，提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡，可实现4张加速卡为一组的8颗思元370芯片全互联，每张加速卡可获得200GB/s的通讯吞吐性能，带宽为PCIe 4.0 的3.1倍，可高效执行多芯多卡训练和分布式推理任务。沐曦 MetaXLink采用自研MetaXLink高速接口，支持单机8卡全互联，显著提升多卡协同效率壁仞BLink原创BLink™高速GPU互连技术，单卡互连带宽最高达448 GB/s，并支持单节点8卡全互连燧原 GCU-LAREGCU-LARE全域互联技术是燧原专为AI训练集群研发的互联技术，提供双向300 GB/s互联带宽，支持数千张云燧CloudBlazer加速卡互联，可实现优异的线性加速比。Gen-ZGen-Z 其实是一堆行业巨头不满意 Intel 技术垄断和演进的情况下，合作搞出的新型高速互连标准，AMD、ARM、博通、Cray、戴尔 EMC、HPE、华为、IBM、联想、Mellanox (NVIDIA)、美光、红帽、三星、希捷、SK 海力士、西数、赛灵思等等都在其中，CPU，模组，网络，服务器，存储，连接器，操作系统，硬盘，FPGA的龙头老大都已经齐聚一堂，好像也看到无处不在的大陆连接器线缆龙头大哥，立迅精密.Gen-Z架构专注于提供高效率、高带宽和低延迟.Gen-Z 面向数据中心和服务器市场，是一种以内存为中心的总线结构式协议，具备高带宽、低延迟、先进工作负载、良好兼容性和经济性等优点.通过利用经过验证的装载/存储模型实现高效率。简化了Gen-Z硬件接口层，从而最大限度地减少了对软件层的需求。消除这种复杂性、开销和诱导系统延迟可以显着提高系统性能。高带宽以两种方式实现。Gen-Z支持非对称通信路径，这意味着可以将更多通道专用于读取路径而不是写入路径，反之亦然。此外，Gen-Z支持多种信令速率，包括16,25,32,56和112 GT / s,总而言之，这些功能将使Gen-Z能够跟上行业不断增长的速度需求，同时还允许将Gen-Z通信路径调整为特定的工作负载流量模式.通过减少软件堆栈来实现低延迟,与传统的服务器存储和大量分层的网络堆栈不同，Gen-Z采用轻量级软件接口，直接对硬件进行内存读写操作.Gen-Z 1.0 标准采用 PCIe 物理层和修改的 IEEE 802.3 以太网电气层标准，但在物理层上只定义了 PCIe 4.0，因此每通道速度最快只有 25GT/s，要想充分利用标准的全部性能，也必须满足 PHY 物理层面的所有规定.Gen-Z 1.1 则引入了 PCIe 5.0，每通道速度提高到 32GT/s，同时在比较宽松的技术限制下，就可以实现 Gen-Z-E-PAM4-50G-Fabric 链接，原始数据率 53.125GT/s，一切都以达到更高的传输速度、更低的延迟为目标，毕竟这也是该标准的初衷目前主流的AI算力芯片板卡（如NVIDIA、AMD、Intel的GPU/AI加速卡）均未采用Gen-Z接口。它们主要使用PCIe和厂商私有的高速互联协议（如NVLink、Infinity Fabric）。这背后是技术路线、生态锁定和成本效益等多重因素共同作用的结果。以下是详细分析：一、当前主流AI算力卡的互联接口PCI Express：行业标准与“基线”作用：这是所有AI加速卡与主机CPU、系统内存及其他设备通信的标准、必需的接口。目前主流是PCIe 5.0，正在向PCIe 6.0过渡。原因：PCIe是服务器和PC行业的通用标准，提供了必不可少的系统兼容性、枚举和基础I/O功能。任何加速卡都必须通过PCIe与主机连接。厂商私有高速互联协议：性能的“核心”NVIDIA NVLink：用于H100、B200等卡间的直接高速互联。其带宽远超PCIe（例如，H100的NVLink 4.0带宽达900GB/s），是构建多卡统一内存域、实现高效模型并行（如张量并行）的关键。它通过SXM形态或NVLink Bridge实现。AMD Infinity Fabric：在AMD Instinct MI300系列等加速卡上，用于GPU to GPU的直接高速连接，功能与NVLink类似，是AMD生态内构建多卡系统的核心。为什么用私有协议？因为这些协议由芯片设计方深度定制，可以与自家GPU的架构（如内存控制器、缓存一致性协议）实现最优协同，达到极低的延迟和极高的带宽，这是通用标准短期内难以匹敌的。二、为什么Gen-Z未被AI算力卡采用？Gen-Z是一种以内存语义为中心的开放互连标准，旨在实现CPU、内存、加速器和存储之间的高效数据共享。它未能成为AI算力卡主流接口的主要原因如下：生态锁定与先发优势NVIDIA的统治地位：其NVLink + CUDA 生态已成为AI训练和高端推理的事实标准。客户购买H100不仅买硬件，更是购买整个软件栈和优化过的多卡通信库（如NCCL）。切换到Gen-Z意味着打破这个封闭但高效的生态，对NVIDIA和客户都无益处。AMD的路径依赖：AMD同样选择了发展自己的Infinity Fabric，并在其CPU（EPYC）和GPU（Instinct）之间通过 Infinity Architecture 进行深度集成，形成了自己的协同生态。技术定位与需求错配Gen-Z的核心优势在于内存池化和解耦，让各种设备可以像访问本地内存一样访问共享内存池。这对于某些数据中心架构（如分解式存储、内存池）很有吸引力。AI算力卡的核心需求是极致的点对点通信带宽和低延迟，以支持大规模模型并行训练。NVLink/Infinity Fabric作为紧耦合的专用互联，在为特定芯片对优化这方面，比通用的Gen-Z更有优势。成本与复杂性在主芯片（GPU）上集成额外的Gen-Z控制器会增加芯片面积、功耗和设计复杂性。在板卡和主板层面，需要增加Gen-Z所需的物理接口和线缆，这会增加系统成本和设计难度，而性能收益对于AI工作负载而言并不明确。标准竞争的结局近年来，另一个标准 CXL 在内存语义互连的竞争中逐渐占据了上风，得到了Intel、AMD、ARM及整个服务器生态链的更广泛支持。CXL基于PCIe物理层，兼容性更好，发展路径更清晰。行业焦点已从Gen-Z转向了CXL。三、未来趋势：CXL与UCIe虽然Gen-Z未成为主流，但解决内存墙和异构计算通信问题的需求依然存在，新的接口标准正在崛起：CXL：目前最受瞩目的行业标准。它运行在PCIe物理层之上，专注于实现缓存一致性的内存共享。未来，AI加速卡可能会集成CXL接口，目的不是为了卡间直连，而是为了让GPU能够更高效、更一致地访问CPU内存甚至池化内存，从而突破单卡显存容量限制。UCIe：这是一个芯片级的裸片互连标准。未来，AI算力芯片可能通过UCIe在封装内部直接与其他芯片（如CPU、专用加速器、HBM）连接，实现比板级互联更高的带宽和能效。这可以看作是“更近一步”的NVLink5.桥接器、SXM、OAM : 高速互联GPU的硬件实现这么多GPU高速互联的技术，最终都要落到实际的服务器硬件实现。第一种就是桥接器，最开始是NVIDIA 专为 PCIe GPU 而设计的物理桥接设备。它能让两个 GPU 建立直接高速连接，绕开主板的 PCIe 主干，总带宽远高于单纯依赖 PCIe 通道的多卡互联方式。后面很多其他厂商也学过去了。桥接器的好处就是，只用PCIe 服务器，就能获得高速互联，但是相对而言限制比较大，大部分可以做到2卡高速互联。要想做到单节点所有GPU全互联，就需要改变服务器的硬件形态了。以H100为例，板卡有两种形态，一种是PCIe板，一种是SXM板。SXM板集成了 H100 GPU 和 HBM3 内存堆栈，并支持第四代 NVLink 以及 PCIe Gen 5 连接，提供最优的应用性能。这种SXM卡用于英伟达的DGX/HGX平台，就是我们常说的GPU模组，这个模组里面集成了GPU、NVLink、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能。各家服务器厂商就根据英伟达的这个模组来开发服务器的硬件平台，大部分就是专供英伟达使用了。但是英伟达的模组都是自己私有化的，其他GPU厂商怎么办呢？2019年OCP全球峰会期间，百度宣布与Facebook、微软展开合作,联合制定OAM (OCP Accelerator Module)标准。该标准用于指导AI硬件加速模块和系统设计。2019年在美国丹佛举行的SC19全球超算大会上,浪潮正式发布全新的AI开放加速系统MX1,可在一个AI服务器支持多种符合OAM(OCP Accelerator Module)规范的AI芯片,这也是全球首个可支持多家不同型号的AI芯片直接更换的AI开放加速系统。OAM标准定义了AI加速器的统一接口，支持ASIC、GPU和FPGA等多种架构，并在物理形态、电源、连接器、引脚定义和系统架构方面提供创新设计。6. 未来演进UAlinkUALink 是 Alibaba、AMD、Apple、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta、Microsoft和Synopsys 发起。国内的一些AI 芯片厂商大概率会放弃自研的link 方式，切换到UAlink，因为实力和市场不容许。通用的UAlinkUltra Accelerator Link™ (UALink™)联盟于2024年10月注册成立，是致力于制定UALink规范的开放行业标准组织。该规范作为高速、可扩展的加速器互联技术，可提升下一代AI和高性能计算集群性能。联盟由行业领军企业组成的董事会领导，包括：Alibaba、AMD、Apple、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta、Microsoft和Synopsys。联盟制定的技术规范为新兴AI应用模式实现突破性性能提供便利，同时支持构建数据中心加速器的开放生态系统。UALink通用规范2.0为UALink技术引入网内计算，促进加速器之间的计算和通信。降低延迟、节省带宽，提升UALink系统在复杂和多工作负载环境下的AI解决方案分布式训练和推理的扩展效率。UALink 200G数据链路和物理层(DL/PL)规范2.0将DL/PL规范从UALink通用规范中拆分，使UALink能够根据行业对新型物理层和速率的需求快速迭代，无需修改其他规范。引入UALink作为具备集中控制平面和管理平面的系统。采用gNMI、Yang、SAI和Redfish等标准化协议、模型和应用程序接口。定义将UALink技术集成至基于芯粒的片上系统所需的关键信息，包括接口、外形规格、流量控制和芯粒管理标准化。完全兼容UCIe® 3.0规范，简化与现有芯粒生态系统的集成。UALink可管理性规范1.0UALink芯粒规范1.0随着UALink技术持续发展，联盟计划推出互操作性与合规项目，以支撑稳健的多厂商生态系统。欢迎有意推动UALink技术发展并参与相关项目建设的企业加入联盟，共同制定未来UALink规范。AMD 是为放弃Infinity Fabric 还是全面拥抱UAlink，AMD有这个实力。根据当前公开的技术信息和行业趋势，AMD在未来很可能会采取“双轨制”策略，即继续发展和使用Infinity Fabric作为其自家产品内部的核心互联技术，同时积极参与并推广UAlink作为跨厂商、开放生态的外部互联标准。两者并非替代关系，而是互补共存。Infinity Fabric将继续作为AMD产品架构基石Infinity Fabric是AMD自Zen架构以来为其处理器和加速器设计的专有、高性能内部互连总线。它深度集成于AMD的芯片设计中，用于连接CPU核心、CCD、IO芯片以及GPU，是实现其模块化设计和高性能的关键。放弃这一成熟且不断演进的技术（如发展到IFOP 3.0）对AMD而言既不现实也无必要。它将继续在EPYC CPU与Instinct GPU的紧耦合计算单元（如MI300X的8卡互联）中发挥核心作用。410AMD积极主导UAlink以构建开放生态对抗NVLinkUAlink的定位与Infinity Fabric不同。它是由AMD、英特尔、谷歌、微软等巨头联盟推动的开放式加速器互联行业标准，旨在为AI服务器集群中的任意品牌加速器（AMD、Intel等）提供高速、低延迟的互连方案，直接目标是打破英伟达NVLink的封闭生态壁垒。AMD是UAlink联盟的核心发起者和主推者之一，其动机在于通过开放标准吸引更多客户和合作伙伴，扩大其AI加速器的市场渗透率。因此，AMD必将大力支持并推广UAlink。2612两种技术将并存于不同场景未来AMD的产品路线图很可能呈现以下分工：内部紧密集成场景：在单机或机架内纯AMD硬件（如EPYC + Instinct MI系列GPU）构成的计算单元中，将继续优化并使用Infinity Fabric以实现最高效的內部通信。这是其性能优势所在。外部异构集群场景：在需要大规模扩展、或与其他厂商硬件（如英特尔GPU、第三方交换机）混合组网的AI数据中心集群中，AMD的加速器将支持并首选UAlink标准进行互联。这符合其开放生态战略。AMD已明确表示，其下一代机架级解决方案“Helios”将同时支持Infinity Fabric和UAlink。58结论：互补而非切换AMD不会“全面切换”到UAlink而放弃Infinity Fabric。相反，它将：对内巩固：持续投资Infinity Fabric，作为其芯片内部及自家产品组合间的高性能私有通道。对外开放：全力推动UAlink成为行业事实标准，确保其AI硬件能在多供应商环境中无缝互联，增强市场竞争力。这种策略使AMD既能保持核心技术优势，又能参与定义开放生态，是最符合其商业和技术利益的路径。对于用户而言，未来的AMDAI解决方案将根据部署环境（纯AMD栈或异构集群）灵活启用这两种互联技术。英特尔将采取“两手准备、优先自研、拥抱开放”的战略，最终会以自研技术为核心，同时积极兼容并影响开放标准（如UALink）。一、核心判断：英特尔的选择逻辑作为追赶者，必须打造差异化核心竞争力英特尔深知，若只在通用GPU领域跟随英伟达，难以超越。其真正的差异化路线是 “XPU”异构计算，即将CPU、GPU、AI专用加速器（如Gaudi）、FPGA等通过高速互连集成。为此，自研的互联技术是其异构战略的“骨架”和核心技术壁垒，不可能完全放弃。生态建设的现实需求：必须加入开放阵营作为市场挑战者，英特尔没有英伟达CUDA生态那样的统治力。要吸引客户（尤其是微软、谷歌等云巨头），就必须证明其产品能与现有基础设施（通常包含多厂商硬件）良好互通。加入并支持UALink这样的开放标准，是降低客户采用门槛、融入多云生态的必经之路。对于英特尔而言，自研互联技术（Xe Link, Foveros）与拥抱开放标准（UALink, CXL）不是非此即彼的选择，而是同时进行的双重战略：对内/底层：用顶尖的自研封装和互连技术（Foveros/EMIB/Xe Link）来保证其AI芯片产品的绝对性能和能效竞争力，这是与英伟达H100、AMD MI300系列正面竞争的硬实力。对外/上层：积极参与并领导CXL、UALink等开放标准，打造开放的、以CPU和通用标准为中心的异构计算生态。这既是团结盟友对抗英伟达的需要，也是其作为系统平台厂商和潜在代工厂商的长期利益所在。Unified BusUB协议在设计上旨在分层支持这四种互联场景，但其在不同层级的物理实现和性能目标有所不同。关于UB是否会全面替换华为原有的HCCS（High-Performance Computing and Communication Switching）协议，答案是：UB是HCCS在架构上的演进和升级，预计将逐步成为华为未来全场景互联的单一协议栈，但替代过程是渐进的。技术演进关系：HCCS的定位：HCCS是华为早期自研的高速片上互联网络协议，主要用于鲲鹏CPU多核之间以及升腾NPU之间的高速互联18。它类似于AMD的Infinity Fabric或Intel的UPI，实现了多核间的一致性互联，为华为突破单芯片性能瓶颈提供了基础。UB的超越：UB不仅仅是芯片内或板级互联协议，其愿景更宏大——它旨在成为从芯片内到数据中心级别的统一互联架构。UB在协议层抽象了物理介质，可以运行在从封装内裸片链路到长距离光缆的不同物理层上10。替代的必然性与路径：架构代差：UB提供的“对等架构”和“统一内存空间”理念，比HCCS所服务的主从架构更先进，能更好地支撑超大规模智算集群10。产品路线图驱动：华为已经发布了基于UB的Atlas 950/960 SuperPoD超节点和TaiShan 950 SuperPoD通算超节点，这些新一代产品的核心互联已明确采用UB协议2711。这表明在新一代硬件平台上，UB已成为首选。生态统一需求：华为推行“硬件开放、软件开源”策略，一个统一的互联协议栈（UB）有利于降低生态伙伴的开发复杂度和成本712。过渡期安排：短期并存：在现有已部署的基于HCCS的硬件（如某些型号的鲲鹏服务器、升腾910等）生命周期内，HCCS仍将被支持。长期收敛：在2026年及之后的新一代产品（如升腾950、鲲鹏950后续型号）和超节点集群中，UB将全面成为互联基础，HCCS的角色将逐渐弱化或被整合进UB协议栈中311。结论华为Unified Bus是一个雄心勃勃的跨层级统一互联协议，旨在用一套架构覆盖从芯片到数据中心的全场景。它将不仅是HCCS的功能性替代，更是一次互联范式的升级，以适应“数据中心即计算机”的未来算力需求。因此，在华为未来的技术蓝图中，UB将成为唯一的、贯穿各级的互联主干，而HCCS将作为前期技术积累融入并最终收敛到这一主干中。NVlink这个没啥好说，英伟达为继续使用演进根据提供的搜索结果，NVLink技术自诞生至今的演进路线清晰展现了英伟达从构建高速GPU间互联到打造超大规模AI集群网络的雄心。其核心路径是从机内点对点互联演变为跨机箱的网络化超级互联。以下是其主要的演进阶段与关键里程碑：第一阶段：奠基与内部互联 (2016-2017)这一阶段的核心目标是突破PCIe瓶颈，在单台服务器内实现GPU间的高带宽直接通信。首发：NVLink 1.0 - 随Pascal架构（P100 GPU）推出。每块GPU配备4个端口，每个端口由8个速率为20 Gbps的通道组成，单端口双向带宽40 GB/s，单卡总带宽160 GB/s，在当时达到PCIe 3.0带宽的5-10倍。它实现了GPU间的点对点直接内存访问。1389第二阶段：规模化与拥抱CPU (2017-2020)目标从单个连接扩展到多GPU系统全互联，并开始将CPU纳入高速互联生态。NVLink 2.0 / NVSwitch 1.0 - 随Volta架构（V100 GPU）推出。单卡端口数增至6个，单通道速率提升至25 Gbps，单卡总带宽翻倍至300 GB/s。关键的创新是引入了NVSwitch交换芯片（最初18端口），首次实现了8个GPU间的全连接（Full Mesh），并开始支持与IBM POWER CPU的缓存一致性连接。239NVLink 3.0 / NVSwitch 2.0 - 随Ampere架构（A100 GPU）推出。单卡端口数大幅增至12个，采用更高速的50 Gbps通道（每端口4通道），总带宽再次翻倍至600 GB/s。NVSwitch升级至36端口，并支持通过背对背连接组建16卡全互联系统（如DGX A100）。269第三阶段：迈向超级网络 (2022年至今)技术定位从“内部互联”升级为可与InfiniBand竞争的独立网络设备，支撑千卡级AI集群。NVLink 4.0 / NVSwitch 3.0 - 随Hopper架构（H100 GPU）推出。单卡端口数达18个，采用PAM4调制实现100 Gbps通道速率（每端口2通道），单卡总带宽高达900 GB/s。NVSwitch 3.0支持64个端口，并集成了用于集合通信优化的SHARP功能。更重要的是，NVLink Network开始支持通过OSFP光模块进行机箱间的连接，实现了“单一节点”概念的巨大扩展。12469未来：NVLink 5.0及生态系统开放 - 根据路线图，下一代预计采用200 Gbps通道速率，带宽将继续提升。更重大的趋势是英伟达推出NVLink Fusion项目，计划通过IP授权方式，允许第三方厂商（如Intel, Arm, SiFive RISC-V）的CPU或其他加速器接入NVLink网络，旨在构建一个以NVLink为核心、更开放的异构计算生态。1710演进规律总结性能跃进：单通道速率按“20G→25G→50G→100G→200G(预计)”翻倍提升，同时通过增加单卡端口数（4→6→12→18→24预计）实现总带宽的指数级增长。79架构变革：从点对点连接，到引入NVSwitch实现全互联，最终演变为支持光电混合的跨机箱网络。145生态扩张：从专为NVIDIA GPU设计，到逐步开放生态，试图成为未来高性能计算和AI集群的统一互联标准。1011总而言之，NVLink的演进路线清晰地反映了AI计算对互联带宽和规模的需求增长，其发展已超越了单纯的GPU互联技术，成为定义现代超大规模AI基础设施架构的关键基石。PCIePCIe互联在高性能训练场景中的劣势PCIe在算力卡互联中的劣势主要体现在带宽和延迟上，使其难以胜任大规模AI训练任务。在高性能计算场景，尤其是需要多卡紧密协同的大模型训练中，PCIe的共享总线架构与NVLink等专用互联技术存在本质差距。NVLink专为GPU间高速直连设计，提供高达数百GB/s的带宽和微秒级延迟，并支持全互联拓扑；而PCIe最初为外设互联设计，用于多卡通信时带宽有限且延迟较高。例如，RTX 4090集群通过PCIe 4.0互联时，有效P2P带宽仅为理论值的12.5%-18.75%，8卡分布式训练AI模型时通信延迟可达NVLink方案的3.6倍，导致GPU利用率暴跌和大量算力空转。因此，在追求极致效率的数据中心训练场景，纯PCIe互联的算力卡难以与配备NVLink的专业卡竞争。139PCIe在推理、边缘及灵活部署场景中的优势尽管在高性能训练中存在瓶颈，但PCIe凭借其通用性、灵活性和成熟的生态，在推理、边缘计算和企业级部署中仍有显著优势与前途。PCIe接口具有极强的通用兼容性，无需改造服务器架构即可便捷部署，大幅降低了AI算力导入的门槛与成本。这在推理、轻量级训练、工业自动化等场景中至关重要，因为此类任务对通信带宽的要求相对较低，更注重部署的灵活性与经济性。同时，PCIe提供灵活的链路宽度（×1到×16），带宽代际演进清晰（目前已至PCIe 5.0/6.0），能适配不同算力等级的需求。在汽车等新兴领域，PCIe的超低延迟、高可靠性和直接内存访问优势，使其成为实时性要求高的边缘互连方案的补充。因此，专注于推理市场或采用非GPU架构的AI加速卡，完全可以依赖PCIe获得成功。257市场多元化与国产化带来的新兴机会在全球算力市场多元化与供应链自主可控的趋势下，仅使用PCIe互联的算力卡正迎来新的发展机遇。随着美国对高端AI芯片的出口限制，中国市场加速推动国产算力发展。许多国产AI芯片企业，如平头哥、寒武纪、燧原科技等，其产品主要通过PCIe形态切入市场。这些芯片在性能上可能不及顶级国际产品，但凭借PCIe的通用接口，能快速适配现有服务器，满足企业级推理、工业计算等广泛需求。此外，PCIe交换芯片作为算力网络的神经枢纽，在国产化进程中地位关键，其发展支撑了全国一体化算力网的建设。这意味着，在特定市场区域和差异化应用场景中，纯PCIe互联的算力卡不仅具有前途，而且是实现供应链安全与成本控制的重要路径。6810未来演进：CXL融合与专用交换芯片提升潜力PCIe互联的未来前途与其技术演进紧密相关，尤其是通过与CXL协议的融合以及专用交换芯片的智能化发展，PCIe有望突破传统外设接口的局限。未来，PCIe加速卡将随异构计算架构普及和CXL协议成熟进入新发展阶段。CXL建立在PCIe物理层之上，支持缓存一致性与内存池化，这将使通过PCIe连接的加速卡从外设转变为对等计算单元，大幅降低数据搬运开销。同时，专为PCIe优化的交换芯片正朝着超低延迟、CXL融合及光电共封装方向发展，以解决大规模集群的内部通信瓶颈。这些演进将使PCIe互联不仅能继续服务边缘与推理市场，更有潜力参与更复杂的异构计算任务，保持其作为通用高速互连基石的长期价值。
- 2026年04月16日
- 3 阅读
- 0 评论
- 0 点赞
2025-09-02
几款免费好用的电路设计软件，你一定要试试！果果小师弟嵌入式微处理器2022年09月16日12：01北京工程软件和在线资源往往比较昂贵，不过，对于专业人员、学生和爱好者来说是非常有益的。用户开展项目或者仅进行工程验证时，这些资源往往是必要的，但是相关成本却令许多人望而却步。今天给大家分享几款高质量的免费软件，相信你肯定喜欢！一、电路仿真PartSim网址：https://www.partsim.com/PartSim是一款基于浏览器的电路仿真器，用户可以通过该软件进行电路实验。该仿真器布局简单，从而确保易用性，同时提供完整的SPICE仿真引擎、基于Web的原理图捕获工具和图形示波器，可以监视电路的模拟/数字信号电平。该工具还包含Digi-Key BOM（物料清单），允许用户为设计组件分配零件号，然后找到分销商。▲PartSim▲PartSimEasyEDA网址：https://easyeda.com/EasyEDA旨在“通过为电子设计提供全面的数据和协作工具，帮助设计人员更快地将创意转化为制造原型”。EasyEDA提供免费的在线电路仿真、PCB设计和电子电路设计功能。人们可以访问大量的原理图元件库、PCB封装和包装、spice仿真、模型和子电路，从而节省设计时间。还可以邀请他人进行项目协作，并轻松地在团队中分享设计。标准版免费使用，并提供无限公共项目和2个私人项目。Autodesk Circuits网址：https://www.autodesk.com.cn/solutions/circuit-design-softwareAutodesk Circuits是用于电子设计和实验的一组工具。初学者可以通过Electronics Lab或Circuit Scribe开始简单的实验，而经验丰富的用户则可以直接跳至PCB设计。该软件提供大量的免费入门教程和项目教程，可以通过Electronics Lab学习。二、PCB设计DesignSpark PCB官网：https://www.rs-online.com/designspark/pcb-softwareDesignSpark PCB将自己称为世界上最易于使用的电子设计软件，专门用于快速原型设计，并且可以将你的电路想法更快地转化为可测试的电路板”。这个软件对原理图尺寸没有限制，所以用户在创建PCB设计时也没有限制。用户也可以导入和导出他们需要的任何格式的文件，并且能够以所需格式创建BOM（物料清单）。虽然该工具完全免费，但是要注意重要的一点，即用户必须在其网站上注册才能解锁程序，并且在开始工作之前必须确认所显示的广告。▲DesignSpark PCB▲DesignSpark PCB▲DesignSpark PCB▲DesignSparkPCBKiCadEDA网址：https://www.kicad.org/KiCad是一款跨平台的开源电子设计自动化套件。该套件由三个不同的工具组成：Eeschema（原理图捕捉）、PcbNEW（PCB布局）和3D Viewer（通过3D方式查看电路板设计）。其中3D Viewer是一个独特的工具，可以旋转和平移你的电路板，从而查看2D图中无法看到的细节。▲KiCad▲KiCad▲KiCad三、CAD建模FreeCAD网址：freecadweb.org/FreeCAD是一款多平台开源参数化3D建模工具，旨在帮助用户将设计项目变为现实。这是一款通用多功能工具，适合不同级别的用户。想要涉及3D打印的初学者、教育工作者或经验丰富的CAD用户都可以使用FreeCAD。程序员还可以利用Python“扩展FreeCAD的功能、用脚本实现自动化、构建自己的模块，甚至将FreeCAD嵌入到自己的应用程序中。”▲FreeCAD▲FreeCAD▲FreeCADQCAD网址：qcad.org/en/QCAD是一款免费的开源2D CAD应用程序。QCAD 是一个免费的开源应用程序，用于二维 (2D) 计算机辅助绘图 (CAD)。使用 QCAD，您可以创建技术图纸，例如建筑平面图、室内设计、机械零件或示意图和图表。QCAD 适用于 Windows、macOS 和 Linux。该程序的功能列举如下：图层、块（分组）、35种CAD字体、40多种施工工具、20多种修改工具等等。许多用户都非常喜欢QCAD易于使用的界面和多功能性，给出了很高的评价。▲QCADImplicitCAD官网：implicitcad.org/ImplicitCAD网站表示：“ImplicitCAD项目致力于利用数学和计算机科学的力量来解决3D打印革命中的愚蠢设计问题”。ImplicitCAD是一款开源程序化CAD工具。这意味着ImplicitCAD使用了一种可以编译成3D对象的编程语言。程序化CAD的优点包括：对象的可重用性和抽象性；重复性任务的自动化；参数化设计以及软件开发（比如版本控制）的常用工具。▲ImplicitCAD▲ImplicitCADOpenSCAD官网：openscad.orgOpenSCAD是一款可以创建实体三维CAD模型的免费软件，可用于 Linux/UNIX、MS Windows和 MacOS X。它允许设计人员创建精确的3D模型和参数化设计，并且可以通过更改参数进行轻松调整。这些文档都是ASCII纯文本脚本，因此OpenSCAD更像是面向程序员的实体建模工具，通常被认为是设计开源硬件的入门级CAD工具，比如科研和教育科学工具。▲OpenSCAD四、电路仿真APP▲Droid PCB▲Circuit Wizard▲Bright Spark来自微信
- 2025年09月02日
- 32 阅读
- 0 评论
- 0 点赞
2025-08-16
SoC硬漏洞 EET0P编译EET0P2021年08月06日04：32来源：EETOP编译整理自semiwiki 我经常看到有关计算机系统被黑客入侵、某某CPU被爆出漏洞等的文章。那么有哪些最佳实践可以让您的新的或现有的电子系统更能抵御攻击，并且不易受到攻击？Gajinder Panesar 和 Tim Ramsdale 分别是来自 Siemens EDA 和 Agile Analog 的两位专家，他们联手撰写了一份 15 页的白皮书，“ SoC 漏洞和模拟威胁的演进格局” 。接下来我们分享一些从阅读本文中学到的要点。(关注EETOP公众号，后台输入关键词：漏洞，获取白皮书）漏洞一个安全前提是仅依靠软件更新来修补漏洞是不够的，因此应考虑将安全性作为硬件设计的一部分。甚至还有一个名为OpenTitan的开源项目，可帮助您为硅信任根(RoT) 芯片构建透明、高质量的参考设计和集成指南。使用基于硬件的 RoT，只能运行与已知签名进行比较的固件，从而阻止加载任何被黑固件的尝试。黑客们变得越来越有创造力和足智多能，通过硬件测量来检查RSA算法中的密钥，，并注意到操作执行方式的微小变化，也就是侧通道攻击。下面显示的是紫色箭头的四个乘法部分，那么负尖峰是算法中的平方和模块化还原的一部分。侧道攻击可以通过检查以下几件事来揭示安全线索：缓存活动执行管道电磁 (EM)值电压变化电流变化侧道攻击的另一个例子是黑客试图猜测其中一个关键字节，并且在下图的350 附近他们找到了一个正确的关键字节。攻击输出与子密钥猜测的样本数黑客攻击的目标包括 5G 基础设施、边缘服务器、物联网设备、云计算、自动驾驶汽车、工业机器人。黑客正在使用统计方法来衡量电子设备，为安全漏洞提供线索。一种对策是让硬件设计团队添加随机电噪声。正如德国安全公司LevelDown所记录的那样，黑客使用的另一种技术是在特定时间点故意干扰电源，然后将存储的位翻转到不安全状态。甚至一些较旧的处理器也存在黑客使用非法操作码的漏洞，从而使处理器处于易受攻击的状态。温度是另一种技术，攻击者可以在高于或低于指定温度的温度下运行 SoC，以改变内部状态，甚至从物理不可克隆功能 (PUF) 中提取私钥。攻击者可能利用电源轨的电压变化，以减慢或加快逻辑，导致内部比特翻转，并达到非法状态。如果黑客可以物理访问您的电子系统，他们通过改变占空比或引入毛刺直接控制时钟输入将改变内部逻辑。 ChipWhisperer是一家拥有开源系统的公司，使用侧信道功率分析和故障注入来暴露嵌入式系统的弱点。使用电磁（EM）辐射进行故障注入是ChipShouter公司使用的一种技术，但它们必须与内部时钟边缘精确定时，以创造一个可重复的故障。即使是在去掉盖子的IC封装上使用激光，也能迫使一个SoC出现内部错误。漏洞对策时钟毛刺：内部生成的比较源。电源毛刺：断电检测器温度攻击：温度传感器在白皮书中，他们提供了一种名为Tessent Embedded Analytics的产品，它将硬件监视器嵌入到您的 SoC 中，然后与基于消息的架构进行通信。添加来自Agile Analog 的硬件安全 IP 可以检查时钟、电压和温度：来自 Agile Analog 的监视器这些监视器可以感知漏洞利用，然后嵌入式分析可以报告并决定适当的安全响应。嵌入式分析和安全 IP 的组合如图所示：嵌入式分析和安全 IP总结SoC 设计的强大功能和优势正受到黑客的攻击，因此设计社区有责任采取主动措施来加强其新产品的安全级别。西门子 EDA 和 Agile Analog 创建了一个嵌入式数字和模拟硬件框架，用于检测网络威胁，并实时采取适当行动。来自微信
- 2025年08月16日
- 18 阅读
- 0 评论
- 0 点赞
2025-07-18
用Tcl实现Vivado设计全流程 Vivado有两种工作模式：project模式和non-project模式。这两种模式都可以借助VivadoIDE或Tcl命令来运行。相比之下，VivadoIDE给project模式提供了更多的好处，而Tcl命令使得non-project模式运行起来更简单。在project模式下，Vivado会自动管理整个设计流程和文件数据。最直接的体现是在Vivado左侧导航Flow Navigator下会显示所有流程，从设计输入到最终生成bit文件。同时，Vivado会自动创建相应的文件目录，生成相应的文件例如dcp以及相应的报告。Non-project模式是一种内存编译流程。用户可以从指定位置读取文件到内存中，然后进行编译。可以逐步执行每个步骤如综合、布局、布线等，可以根据需求设定编译参数。这一切都可以通过Tcl命令完成。显然，non-project模式下，用户可以通过Tcl命令管理设计文件和设计流程，体现了该模式的主要优势即用户对设计流程有完全的掌控力。Project模式和non-project模式的主要区别如下图所示。不难看出，project模式下更多的管理、操作都是“自动”完成的；而non-project模式下，则是“手工”完成的。从Tcl命令的角度而言，project和non-project模式也是不同的，如下图所示。Project模式下用到的Tcl命令是一种打包的命令，例如添加设计文件需用add_files，文件可以是HDL（包括VHDL，Verilog或SystemVerilog），可以是约束文件（包括.xdc或.tcl），可以是网表文件（可以是dcp，ngc或edif）等。Implementation时，命令launch_runs就可以按照指定的策略完成所有的步骤，包括生成相应的DCP。Non-project模式下用到的Tcl命令是分立的，例如，读入设计文件，如果是VHDL，需要用到read_vhdl；如果是Verilog，需要用到read_verilog，如果是.xdc，需要用到read_xdc；如果是DCP，需要用到read_checkpoint；如果是EDIF，需要用到read_edif。而在implementation时，需要分别用到opt_design、place_design、phys_opt_design和route_design等。因为Tcl命令使得non-project模式更能简单地运行，这里我们将介绍如何通过Tcl命令在non-project模式下完成所有步骤。有道云笔记2021-11-04 16:41:15
- 2025年07月18日
- 26 阅读
- 0 评论
- 0 点赞

1
2