分类算法与架构下的文章 - 欢迎来到半导体与芯片的世界

登录

标签搜索

bennyhe

累计撰写 378 篇文章
累计收到 31 条评论

搜索到 32 篇与的结果

2026-04-17
AI专题十七：一个AI算力板块上多颗chiplet之间的chip-to-chip连接 1 H100 板卡NVIDIA H100 实际上采用的是单一大芯片（Monolithic）设计，而非 Chiplet/MCM 多芯片设计。项目规格GPU 型号GH100（Hopper 架构）制造工艺台积电 4N 定制工艺晶体管数量800 亿Die 尺寸814 mm²架构类型单一大芯片（Monolithic），非 Chiplet所以NVIDIA H100 GPU板卡没有多颗算力芯片的chiplet 的 chip-to-chip连接2 一个AI算力版本上集成多颗算力chiplet 的方案AMD MI300X 架构详解板卡上的 Chiplet 组成组件数量工艺节点功能XCD (Accelerator Complex Die)8 颗台积电 5nmGPU 计算芯粒，每颗含 38 个 CUIOD (I/O Die)4 颗台积电 6nmI/O 芯粒，含内存控制器、Infinity Fabric 网络HBM3 堆栈8 颗-每颗 24GB，共 192GBNVIDIA Blackwell (B100/B200) 架构详解板卡上的 Chiplet 组成组件数量工艺节点功能GPU Compute Die2 颗台积电 4NP计算芯粒，每颗约 1040 亿晶体管HBM3e 堆栈8 颗-每颗 24GB，共 192GB双 Die 互连结构Blackwell 采用 NV-HBI（NV-High Bandwidth Interface）连接两颗计算芯粒┌─────────────────┐ NV-HBI (10 TB/s) ┌─────────────────┐ │ GPU Die 0 │ ←────────────────────→ │ GPU Die 1 │ │ (104B 晶体管) │ 芯片间高带宽接口 │ (104B 晶体管) │ │ │ │ │ │ 80 SM (第5代) │ │ 80 SM (第5代) │ │ 5 颗 HBM3e │ │ 3 颗 HBM3e │ └─────────────────┘ └─────────────────┘ ↓ ↓ ┌─────────────────────────────────────────────────────┐ │ TSMC CoWoS-L 硅中介层 │ │ (Local Silicon Interconnect 技术) │ └─────────────────────────────────────────────────────┘两颗 reticle-limited dies（约 800mm² 每颗）通过 NV-HBI 以 10 TB/s 速率连接 szwecent.com• 采用 TSMC CoWoS-L 封装技术（带 LSI 芯片的 RDL 中介层）EnosTech.com• 对外呈现为单一统一 GPU（逻辑上不是双 GPU）上面两个GPU 板块对比特性AMD MI300XNVIDIA B100/B200Chiplet 数量12 颗（8 XCD + 4 IOD）2 颗 GPU Die每个 Chiplet 内部 Die 数XCD: 1 颗 DieIOD: 1 颗 Die每颗 GPU Die: 1 颗大 Die堆叠方式3.5D（3D SoIC + 2.5D CoWoS）2.5D CoWoS-L（双 Die 平铺）内部互连技术Infinity Fabric APNV-HBI (10 TB/s)外部互连技术Infinity Fabric (896 GB/s)NVLink 5.0 (1.8 TB/s)计算单元304 CU (8×38)160 SM (2×80)内存容量192 GB HBM3192 GB HBM3e总晶体管数~1530 亿2080 亿3 一个AI算力板块上多颗chiplet之间的chip-to-chip连接互联技术带宽（双向，典型配置）延迟（链路延迟，典型场景）能效（每字节传输能耗/相对值）一致性支持PHY面积（相对PCIe Gen5，同工艺）关键备注NVLink C2C（4.0）单链路900GB/s；多链路可聚合（如Grace Hopper平台）亚纳秒级（<1ns，封装内芯片间）1.3皮焦/字节；相对PCIe Gen5提升25倍支持全缓存一致性，兼容AMBA CHI协议10%（面积效率提升90%）专为芯片级短距互联设计，依赖先进封装（MCM/硅中介层）PCIe Gen5x16链路：128GB/s（单通道32GT/s，NRZ调制）15-30ns（板级设备间）相对NVLink C2C低25倍；典型每字节能耗~32.5皮焦不支持原生缓存一致性，需上层协议扩展100%（基准值）通用I/O互联，生态成熟，适用于板级外设连接PCIe Gen6x16链路：256GB/s（单通道64GT/s，PAM4调制）<10ns（板级设备间，FLIT模式）相对PCIe Gen5提升50%；每字节能耗~21.7皮焦不支持原生缓存一致性110%-120%（引入FEC和PAM4，面积略有增加）兼容前代PCIe设备，支持动态FLIT/TLP模式切换CCIX 1.1x16链路：100GB/s（单通道25Gbps，NRZ）；扩展模式可达更高10-20ns（板级CPU-加速器间）相对PCIe Gen5提升2-3倍；每字节能耗~10-16皮焦支持全缓存一致性，基于AMBA CHI协议演进95%-105%（基于PCIe物理层，面积相近）专为异构计算设计，优化CPU与加速器互联CXL 3.0x16链路：256GB/s（单通道64GT/s，PAM4，兼容PCIe 6.0）3-8ns（板级设备间，优化后）相对PCIe Gen5提升3-4倍；功耗密度2.8W/cm²支持全缓存一致性（CXL.cache/CXL.mem模式）80%-90%（复用PCIe PHY，协议层优化压缩面积）开放生态，兼容PCIe基础设施，适用于内存扩展与加速器互联Nvlink-C2CNVLink-C2C技术也可用于连接同一块PCB主板或同一台服务器内、不同封装的两个独立芯片。技术实现：通过芯片边缘的NVLink SerDes物理层接口，经由主板上的高速走线或连接器进行连接。1特点：这种连接距离比封装内远，但仍远优于传统PCIe，用于构建多芯片、多节点的紧密耦合系统。例如，可以将多个集成了NVLink-C2C IP的定制加速器芯片在板级互联。NVLink C2C的核心价值是打破单芯片性能瓶颈，实现多芯片（如CPU+GPU、CPU+CPU）在同一封装内的“超级芯片”级整合：AMD IF这是在同一块物理加速卡内部，连接多个GPU计算芯片（GCD）的桥梁。作用：让一块物理GPU卡内的多个计算芯片（例如MI250X包含2个GCD）能够像单个逻辑GPU一样协同工作，共享内存一致性域。示例：AMD Instinct MI250X：一块双芯GPU卡，其内部的两个图形计算芯片（GCD）就是通过极高带宽的Infinity Fabric链路（四向链路，双向带宽约200GB/s）直接互联的。这是它实现高计算密度和内存一致性的基础。特点：带宽远高于传统的PCIe，是实现单卡内多芯片高效协同的关键。PCIE （包括PCIE GEN5 、PCIE GEN6）PCIe可以用于同一封装内Chiplet之间的通信，但这并非其最优或主要设计场景。其应用受到物理特性和协议开销的限制，主要出现在特定过渡或兼容场景中。主要特点与限制并非原生设计：PCIe协议设计初衷是板级或设备间通信，其物理层和协议栈包含了应对较长距离、信号完整性问题以及系统枚举的额外开销。高延迟与较大功耗：由于上述协议开销，在极短距离的Chip-to-Chip互连中，PCIe的延迟和功耗显著高于UCIe、AIB、BoW等专为Chiplet设计的互连标准。封装技术要求高：为了实现Chiplet间通信，需要将PCIe的SerDes（串行器/解串器）电路集成到每个Chiplet中，并在封装内布线，这对封装设计和信号完整性提出了挑战。主要应用场景尽管非最优，PCIe在Chiplet场景中仍有其应用价值，主要集中在以下方面：早期集成与原型验证在专用Chiplet互连标准（如UCIe）成熟和普及之前，或在对峰值带宽和极致延迟要求不高的场景中，开发团队可能选择使用成熟的PCIe IP进行Chiplet间的初步集成和功能验证，以缩短开发周期。2异构扩展与桥接当需要将一个基于PCIe设计的功能模块（例如，一个已验证的IP核、第三方IP或遗留设计）以Chiplet形式集成到先进封装中时，使用PCIe接口可以最大程度地避免对该模块内部架构的重新设计，实现“即插即用”。这常见于某些I/O、控制器或加速器Chiplet。2作为上层协议载体更常见且重要的应用方式是，物理层采用更高效的Chiplet互连标准（如UCIe），而在协议层运行PCIe。UCIe标准原生支持PCIe作为其上层协议之一。在这种架构下，Chiplet间享受了高带宽、低延迟的物理连接，同时在软件层面呈现为标准的PCIe设备，继承了PCIe完善的生态、驱动和操作系统支持。168系统级互联的补充在包含多个Chiplet的复杂封装中，可能同时存在多种互连。例如，计算核心与缓存之间采用超低延迟的专用总线，而与通用I/O Chiplet或外部内存控制器之间则可能采用PCIe，以满足不同的带宽、延迟和功能隔离需求。PCIE CCIXCCIX（缓存一致性互联协议）是一个旨在为CPU与加速器之间提供高性能、缓存一致互连的协议标准。它的核心目标是通过引入缓存一致性机制，简化异构系统的数据共享，降低时延，提升带宽。1CCIX的分层架构组成CCIX采用了分层架构设计，可以分为协议规范和传输规范两部分。CCIX协议规范：包含协议层和链路层，负责定义缓存一致性协议、消息格式、流量控制等。CCIX传输规范：包含事务层（CCIX和PCIe事务层）、数据链路层（PCIe数据链路层）和物理层（CCIX物理层），负责具体的数据包传输、错误校验和物理连接。23CCIX物理层的两种实现方式CCIX并非独立的物理接口，而是在物理层上兼容或扩展现有的高速互连标准。兼容PCIe PHY：CCIX规范要求设备必须支持两种物理层之一。一种是PCIe PHY，即完全使用PCIe标准的物理层和电气接口。这使得CCIX可以无缝运行在标准的PCIe插槽和链路上。扩展EDR PHY：另一种是CCIX EDR PHY。这是一种扩展模式，在原PCIe物理层基础上提升数据速率，支持20GT/s和25GT/s，以提供更高的原始带宽。CCIX与PCIe的关系和优势CCIX在设计上深度依赖于PCIe的成熟基础设施，并对其进行了功能扩展。协议层面复用与扩展：CCIX构建在PCIe的数据链路层之上，定义了自身的协议层和事务层，以支持缓存一致性。它既可以传输标准的PCIe数据包，也可以传输为一致性操作优化的、开销更小的CCIX包。35物理层面兼容与提速：CCIX可以在标准的PCIe物理层上运行，从而利用现有庞大的PCIe生态。同时，它又通过EDR模式提供了高于PCIe 4.0原生16GT/s的速率选项CCIX协议未被正式纳入PCIe Gen5或Gen6的核心规范，它作为一个独立的互联协议，通过复用PCIe物理层来实现高速互连。CIX没有“成为”PCIe规范的一部分，而是作为一种能够运行在PCIe物理通道上的、附加的协议层存在。它需要系统中的芯片（如CPU、加速器）专门集成CCIX控制器（即CCIX协议栈）才能启用。PCIE CXLCXL是一种独立的逻辑协议CXL（Compute Express Link）是一种开放标准的行业协议（即逻辑规范和数据通信规则），而非物理接口的硬件定义。它定义了主机处理器与加速器、内存扩展设备等之间进行高带宽、低延迟通信时所需的链路层、传输层及事务层协议，特别是强调了缓存一致性内存访问的语义。27CXL复用PCIe的物理层接口CXL协议在物理层完全复用并依赖于PCIe（特别是Gen 5及以上版本）的物理电气接口。这意味着CXL设备使用与PCIe设备相同的连接器、线缆和电气信号标准进行物理连接和数据传输。CXL利用PCIe的这种成熟物理基础来实现高速互连，从而简化了硬件设计和产业推广。125CXL并非PCIe协议的一部分CXL是一个与PCIe并行发展、相互协作但独立的协议。它没有成为PCIe协议的一部分。具体表现为：协议栈独立：CXL拥有自己独特的链路层和传输层协议（如CXL.cache, CXL.mem），这些协议在通过PCIe物理层传输前，会与CXL.io协议动态复用。35组织独立：CXL由独立的CXL联盟制定和维护，而PCIe则由PCI-SIG组织管理。两者是不同的行业标准机构。2兼容与共存：CXL设备可通过PCIe的Flex Bus接口兼容连接。如果主机或设备不支持CXL，链接将降级为标准的PCIe操作模式，这表明两者是共存而非融合的关系Unified BUSUnified BUS 也可用于C2C灵衢定义为面向超节点（SuperPoD）的统一互联协议，旨在将 I/O、内存访问、异构计算单元（CPU/NPU/GPU等）之间的通信融合到同一技术体系中，实现高性能、高协同、高弹性的计算基础设施。UCIEUCIE 也可以用于C2CUCIe规范采用分层架构方法，在保持高性能的同时最大化灵活性和互操作性。在基础层面，物理层在电气层面处理芯间I/O，实现链路训练、通道修复/反转、扰码、模拟前端功能、时钟、侧带通信和配置寄存器。该层还定义通道要求并确保符合电气规范。物理层设计为适应不同的封装技术，同时保持一致的性能特性。中间层，称为芯间适配器，作为可靠性层负责确保可靠的数据传输。当使用多个协议时，实现仲裁和多路复用，处理CRC/重试机制进行错误检测和纠正，管理链路状态转换，并支持连接设备之间的参数协商。适配器维护可访问高级功能的配置寄存器，在原始模式下可完全绕过，用于需要直接访问物理层的专用应用。这种灵活性允许标准化和定制实现在UCIe框架内共存。在堆栈顶部，协议层支持多种接口类型，以适应多样化的使用模型。主要支持的协议是CXL/PCIe，适用于需要标准化"即插即用"功能的大量应用，如I/O附件、内存接口和加速器。这些协议利用现有软件生态系统，实现与当前系统架构的无缝集成。对于更专业的应用，UCIe还支持流式接口，可容纳AXI、CHI、SFI和CPI等专有协议。这种流式方法对于从较小芯片构建更大计算单元的扩展场景特别有价值，例如由多个较小元素组成的CPU、GPU和网络交换机。完整规范涵盖从物理凸点/键合焊盘层到形状因素定义的互连，为跨不同封装技术和应用领域的Chiplet集成创建了全面框架。
- 2026年04月17日
- 9 阅读
- 0 评论
- 0 点赞
2026-04-16
AI专题十六：AI算力chiplet的die-to-die连接 1 从SOC 到chipletChiplet又称“小芯片”或“芯粒”，它是一种功能电路块。Chiplet技术就是将一个功能丰富且面积较大的芯片裸片（die）拆分成多个芯粒（chiplet），并将这些具有特定功能的芯粒通过先进封装的形式组合在一起，最终形成一个系统芯片。而目前市场主流的SoC（英文全称是System-on-a-Chip）技术则与之相反，它是将多个负责不同功能的电路块通过光刻的形式制作到同一块芯片裸片（die）上，如手机SoC芯片，基本都集成了CPU、GPU、DSP、ISP、NPU、Modem等不同功能的计算单元和诸多的接口IP。SoC技术和Chiplet技术的关系示意图，如下所示：SoC技术对先进的纳米工艺有着高度的依赖。像手机芯片制造工艺就越来越高，从28nm一路升级到10nm、7nm、5nm，目前正进一步走向3nm甚至更低。不过，纳米工艺已经接近物理极限，业内普遍认为半导体行业正在进入后摩尔时代，需要寻找新的技术路线。于是，Chiplet技术被寄予厚望，很可能在未来几年成为一种主要的芯片设计形式。那么，Chiplet技术具体有哪些优点呢？Chiplet有哪些优势？首先，Chiplet技术把大芯片分成面积更小的芯片，有助于改善良品率，从而减少制造成本。通常，在晶圆加工过程中，离晶圆中心越远就越容易出现坏点。因此从硅晶圆中心向外扩展，坏点数呈上升趋势，所以企业无法随心所欲地增大晶圆尺寸，否则不良率会大幅上升。其次，SoC芯片的逻辑计算单元依赖先进制程来提高性能，其他部分通常可使用成本更低的成熟制程，SoC芯片Chiplet化之后，不同芯粒可以根据需要来选择合适的工艺制程分开制造，再通过先进封装技术进行组装，从而有效降低制造成本。2 chiplet die-to-die 连接方式die-to-die 连接示意图目前主流的chiplet die-to-die 主流连接接口根据下面信息，主要优先掌握ucie 、openHBI接口，了解Nvlink、Unified BUS连接。几乎每家有实力做AI 算力芯片的公司都会搞自己私有的die-2o-die 接口。ucie统一Chiplet标准UCIe在众多Chiplet互联标准中，由Intel提出的通用Chiplet互联标准（UCIe）在很短时间内就引起了业界广泛关注，目前来看最有希望成为业界统一的互联标准。UCIe是唯一具有完整裸片间接口堆栈的标准，其他标准都没有为协议栈提供完整裸片间接口的全面规范，大多仅关注在特定层。此外，UCIe不但支持有机衬底或层压板等传统封装，也可以支持2.5D和桥接等先进封装，如硅衬底、硅桥或再分配层（RDL）扇出等形式，预计未来还会支持3D封装。UCIe协议栈本身有三层：最上端的协议层通过基于流量控制单元（FLIT）的协议实现，确保最大效率和最低延迟，并支持多个主流协议，包括PCIe、Compute Express Link（CXL），以及用户定义的流协议。中间的D2D适配层用于对协议进行仲裁与协商，以及通过裸片间适配器进行连接管理。基于循环冗余检查（CRC）和重试机制，该层还包括可选的错误纠正功能。最下面的物理层（PHY）规定了与封装介质的电气接口，是电气/模拟前端（AFE）、发射器/接收器以及边带通道（Sideband）在两个裸片之间进行参数交换与协商的层级。逻辑PHY可实现连接初始化、训练和校准算法，以及测试和修复功能。UCIe协议具有如下优点：UCIe的Sideband、DDR、Forward Clock设计使得UCIe单个应用场景下的模块设计复杂度相对更低，模块验证也更加容易；UCIe传输时延和功耗更低、速率更高、BER更低，在功耗和性能的平衡方面做得比其他协议好；由于和PCIe/CXL的无缝对接，可以利用PCIe现有的强大生态，轻松地将板级互联扩展到封装内部；UCIe不但支持PCIe向CXL的扩展，还支持用户自定义的Raw mode，一个D2D Adaptor 可持架接多个协议栈。目前已经有不少国内厂商加入UCIe联盟，其中包括：阿里云、日月光、长电、华为、芯原、灿芯、芯耀辉、超摩科技、合见工软、芯和半导体、长鑫、牛芯、芯云凌、芯来科技和奎芯等。此外，由中国计算机互连技术联盟（CCITA）发起的Chiplet标准《小芯片接口总线技术要求》在中科院计算所、工信部电子四院和国内多个芯片厂商合作推动下，也已经发布。小芯片接口总线技术的体系架构见下图，主要包括数据链路层(Data Link Layer，DLL)、物理适配层(Physical Adaptation Layer，PAL)，以及物理层(Physical Layer，PHY)等。此标准列出了并行总线等三种接口，提出了多种速率要求，总连接带宽可以达到1.6Tbps，以灵活应对不同的应用场景以及不同能力的技术供应商。通过对链路层、适配层、物理层的详细定义，实现在小芯片之间的互连互通，并兼顾了 PCIe 等现有协议的支持，列出了对封装方式的要求。小芯片设计不但可以使用国际先进封装方式，也可以充分利用国内通用封装技术。BoWODSA正在定义一个名为Bunch of Wires (BoW)的芯片到芯片接口。BoW接口专注于解决基于有机基板的并行互连问题，BoW有BoW Base，BoW-Fast和BoW-Turbo三种类型，支持不同的传输距离和传输效率。此外，BoW支持向后兼容，并且对芯片工艺和封装技术的限制较少，不依赖于先进的基于硅的互连封装技术，具有广泛的应用范围Bunch of Wires（BoW）是一种适合Chiplet和芯片级封装（CSP）互联的简单物理接口架构，起初是针对数据中心计算、通信和网络需求的短距离互联解决方案，后来被OCP下属的开放特定域架构（ODSA）工作组采纳为用于连接同一封装内近距离裸片互联的接口协议。跟服务器板卡之间的互联不同，芯片封装内多个裸片的互联环境相对稳定，因为距离短，信号衰减小，因此互联设计可以比较简单。其实，BoW接口设计的初衷就是要实现低实施成本、兼容不同IC工艺节点，并可灵活支持各种封装技术凸凹间距，从而满足复杂芯片的低功耗、低延迟和高吞吐量要求。据OCP/ODSA介绍，BoW应用于Chiplet互联时具有如下优势：比现有并行标准更高的数据速率；适用于传统的低成本压层衬底封装及更高密度的硅interposer封装；比采用传统的SerDes链路设计更容易实现（较低的数据传输率可以使用单端信号及更密集的线束）；兼容混合凸凹间距的封装情况。2018年，OCP与JEDEC联合起草了CDXML (Chip Data Exchange Markup Language)规范，定义了Chiplet互联的电气、机械和散热标准。这一针对2.5D或3D堆叠Chiplet设计的规范语言采用XML格式，并借鉴了多个现有JEDEC标准，包括JEP181散热标准和JEP30-P101电气/机械和I/O标准，以及IEEE 1687测试和IEEE 2416电源模型标准。BoW 的开放式物理层和链路层规范旨在支持高性能 D2D 接口。关键性能指标包括每条线路高达 32Gb/s 的数据传输速率、低于 0.5pJ/bit 的能效和低于 8ns 的延迟。BoW 与各种封装和集成电路工艺的兼容性使其成为不同成本和性能设计点的通用解决方案。发展到 BoW 2.1为了促进开放式芯片经济的发展，BoW 正在不断改进，以满足新应用的需求，特别是在人工智能、边缘和物联网领域。即将发布的 BoW 2.1 版本将在三个关键领域引入规范扩展：光学、内存和物联网。BoW简化了传统SerDes的复杂性，适合短距离互联：传统SerDes架构： BoW架构：┌────────────┐ ┌────────────┐│Serializer │ │ ││ PLL │ │ Simple ││ CDR │ │ Driver ││ Equalizer │ │ │└────────────┘ └────────────┘复杂度：高复杂度：低功耗：>5 pJ/bit 功耗：<1 pJ/bit关键简化：无需时钟数据恢复（CDR）无需均衡器简单的单端驱动器源同步时钟物理层实现细节IO单元设计： ┌─────────────────────┐ TX───│ Driver │ │ - Impedance: 50Ω │───> Bump │ - Slew Rate Control│ └─────────────────────┘ ┌─────────────────────┐ RX<──│ Receiver │<─── Bump │ - Comparator │ │ - Hysteresis: 20mV │ └─────────────────────┘时钟分发网络：H-tree结构最小化偏斜每16个数据位配1个时钟相位插值器用于去偏斜最大偏斜：<50ps时钟架构深度分析转发时钟 vs 嵌入式时钟：转发时钟（AIB/BoW选择）：优点：简单、低功耗、确定性延迟缺点：需要额外的时钟引脚适用：Chiplet等确定性连接嵌入式时钟：优点：无需时钟引脚、灵活缺点：需要CDR、功耗高适用：板级互联、光通信多时钟域处理：Die A (1GHz) Die B (1.5GHz) │ │ ├──> Async FIFO <──────┤ │ │ └──> Clock Domain ─────┘ Crossing (CDC)AIB/MDIOAdvanced Interface Bus (AIB)最初由Intel开发，用于FPGA的die-to-die互联。AIB 1.0特性（2017年）：单端信令数据速率：2 Gbps/pin凸点间距：55μm功耗：0.85 pJ/bit应用：Intel Stratix 10 FPGAAIB 2.0改进（2019年）：数据速率：4 Gbps/pin功耗优化：0.5 pJ/bit增强时钟架构DFT（Design for Test）增强作为AIB的升级版本，MIDO提供了更高的传输效率，并且响应速度和带宽密度是AIB的两倍以上。AIB和MDIO技术主要适用于通信距离短，损耗低的2.5D和3D封装技术，例如EMIB、Foveros。LIPINCONLIPINCON：LIPINCON是台积电多年前就开始研发的裸片之间数据互联接口技术，通过使用先进的基于硅的互连封装技术（例如InFO、CoWoS）和时序补偿技术，为Chiplet提出的高性能互连接口。LIPINCON可以在没有PLL/DLL的情况下降低功耗和占用面积。LIPINCON接口包含两种类型的PHY：PHYC和PHYM，分别用于SoC芯片和存储器/收发器芯片。OpenHBIOpenHBI 利用 JEDEC 的 HBM3 电气特性和 IO 类型来降低风险。它使用低电压和未端接的单端 DDR 信号来传输晶粒之间的数据。OpenHBI 标准具有许多关键特征：整合多个 OpenHBI 兼容的 die-to-die 接口，实现互操作性利用 JEDEC HBM3 IO 类型和电气特性可与支持 HBM 存储器和 OpenHBI 标准的双模 HBM 主机控制器互操作支持硅中介层和晶圆级集成扇出或同等技术实现对称 die-to-die 接口实现目标速度：每引脚 8Gbps，正迈向 12-16 Gbps在最高数据传输速率时提供长达 3mm 的互连距离实现小于等于 0.5pJ/bit 的功耗目标提供大于 1.5T 位/毫米（包括发射器和接收器）的线性（边缘）带宽密度定义 PHY 和逻辑 PHY 抽象层，轻松适配上层支持正常的和旋转的晶粒方向可以调整带宽和边缘（DW 数量）以匹配各种用例支持小芯片 (Chiplet) 配置和测试 (CCT) 接口支持通道修复，提高制造良率OpenHBI 标准主要针对图 2 所示的下层（PHY 和逻辑 PHY 层）。然后将适配器层用于与上层（协议层）进行连接。因此，系统实现不依赖于各个应用所用的协议。Infinity FabricInfinity Fabric 是AMD为其Ryzen、EPYC等产品设计的内部互连架构。它由传输数据的Infinity Scalable Data Fabric和负责控制的Infinity Scalable Control Fabric组成，连接CPU核心、GPU、内存控制器以及多die之间和多个CPU插槽之间。它本质上是AMD的专有技术，不对外开放规格，主要用于其自家产品内部的die-to-die和多socket互连.NvlinkVIDIA的NVLink技术可以用于chiplet内部的die-to-die连接，其具体实现形式被称为NVLink-C2C。这项技术是NVIDIA应对chiplet和异构集成趋势的核心方案。以下是其关键特性与应用场景的详细说明：技术形态：NVLink-C2C这是一种专门为芯片内部或封装内die-to-die互连而设计的物理层和互连协议技术。它脱胎于高带宽的GPU间NVLink技术，但针对短距离、超高密度的片上互连进行了优化9。性能特点超高带宽与低延迟：在先进封装（如硅中介层）下，能提供高达900 GB/s的带宽，延迟极低，并支持缓存一致性9。高能效与面积效率：其能效比是PCIe 5.0的25倍，面积效率更是高达90倍，使其非常适合对功耗和空间极其敏感的chiplet设计9。主要应用场景NVLink-C2C主要用于连接NVIDIA自家的不同计算芯粒，构建超级芯片：CPU-CPU连接：例如在Grace Superchip中，用于连接两个Grace CPU die，形成一个统一的144核处理器9。CPU-GPU连接：例如在Grace Hopper Superchip中，用于连接Grace CPU die和Hopper GPU die，实现CPU与GPU间的高速协同9。为定制芯片提供接口：NVIDIA也将此技术以 “NVLink Fusion” 的形式开放授权。其他厂商（如定制AI加速器公司）可以将其Chiplet集成到自己的设计中，从而接入NVLink生态系统，与NVIDIA的GPU实现高速互连5813。与标准互连方案的对比与传统（板级）NVLink的区别：传统的NVLink用于连接独立的GPU卡或板级组件，通过PCB走线或电缆传输。而NVLink-C2C是通过封装内的硅中介层或硅桥进行连接，属于片上网络级别，带宽和能效更高9。与开放标准（如UCIe）的关系：在chiplet互连的开放标准领域，UCIe 是主流。NVIDIA的NVLink-C2C是一种专有高性能方案，主要服务于其自身的产品生态。虽然性能卓越，但开放性不及UCIe4。总结NVLink-C2C是NVIDIA用于chiplet内部die-to-die连接的专用高性能互连技术。它已成功应用于其Grace CPU和Hopper GPU的超级芯片设计中，并通过NVLink Fusion计划向合作伙伴开放，旨在构建一个以NVLink为核心的高速异构计算生态系统这是一个非常精准的技术命名问题。NVIDIA将其chiplet/芯片间互连技术命名为 NVLink-C2C（Chip-to-Chip），而非Die-to-Die（D2D），这一选择背后反映了其技术定位、封装层级和市场策略的深层考量。一、技术层级与封装范畴的区分“Die-to-Die”通常指代的是在单个封装（Package）内部，不同硅片（裸片）之间的互连。例如，AMD的Chiplet架构中，CCD与IOD之间的连接，或英特尔EMIB技术连接的裸片，都属于这个范畴。其特点是距离极短、功耗极低，通常依赖于硅中介层或先进封装技术实现超高密度布线。而“Chip-to-Chip”则定义了一个更宽泛、封装层级更高的互连范畴。它明确包含了两种场景：单封装内裸片互连：即传统意义上的D2D。板级芯片互连：将两个独立的、已封装好的芯片（如一个Grace CPU封装和一个Hopper GPU封装）通过基板上的超高密度布线连接在一起，形成一个更大的“超级芯片”。NVLink-C2C的核心设计目标正是为了无缝覆盖以上两种场景。例如在Grace Hopper超级芯片中，它既可用于连接同一封装内的计算单元，更重要的是用于连接独立的Grace CPU芯片和独立的Hopper GPU芯片，将它们整合为一个统一的内存系统。3510二、强调技术扩展性与通用性使用 “Chip” 而非 “Die”，在语义和营销上更具扩展性：“Chip”是商品化的单元：在产业链和用户认知中，CPU、GPU、DPU都是可以独立采购、封装和测试的“芯片”。命名为C2C，清晰地传达了这项技术可用于连接这些已经成型的产品级芯片，而不仅仅是制造过程中的半成品裸片。体现技术通用性：它暗示该技术不仅可以用于NVIDIA自家芯片的互连，未来也可能开放给合作伙伴，用于连接其他符合标准的第三方芯片，构建更广泛的生态系统。这与D2D通常局限于同一家公司、同一封装内部的私有互连协议形成了概念上的区别。3三、与UCIe等D2D标准进行战略区分在NVIDIA推出NVLink-C2C的同期，行业正在力推开放的UCIe标准，其核心正是Die-to-Die互连。NVIDIA选择“Chip-to-Chip”的命名，在技术话语体系上巧妙地与UCIe进行了区隔：UCIe：定位为封装内裸片互连的开放标准，旨在实现不同厂商裸片在先进封装内的“即插即用”。1NVLink-C2C：定位为NVIDIA私有的、更高层级的互连技术，不仅涵盖封装内，更强调封装间（板级）的超高性能一致性互联，服务于其构建“超级芯片”和庞大计算节点的整体战略。56这种命名避免了让市场直接将其与UCIe在D2D层面进行对标，而是突出了其在性能（带宽、延迟）和系统集成度上的更高追求。6四、品牌与技术路线的延续“NVLink” 本身已是NVIDIA高性能互连的金字招牌，最初用于GPU间互联，后扩展到GPU与CPU。“C2C”是其自然演进，明确了互连的物理主体从“板卡”进一步下探到了“芯片”级别。NVLink（卡间） -> NVLink-C2C（芯片间） -> （未来可能的）更紧密集成。这种命名保持了品牌的一致性和技术演进的清晰脉络，让开发者与合作伙伴易于理解：这是NVLink技术向更底层、更紧密集成方向的延伸。总结NVIDIA选择 NVLink-C2C 而非 NVLink-D2D，绝非随意之举：技术定义更广：C2C涵盖了从封装内裸片到板级封装芯片的互连，而D2D通常特指前者。市场定位更高：强调其用于连接完整产品级芯片，构建超级芯片系统的能力，与单纯的裸片集成区分开来。战略区隔明显：与行业开放的UCIe（D2D）标准形成差异化竞争，突出其私有高性能技术路线。品牌延续性强：作为NVLink家族的新成员，清晰表明了技术方向的演进。因此，“Chip-to-Chip”是对这项技术野心和应用范围更准确、更具战略视野的命名。Unified BUS华为统一开放的可以用于芯片内部，die-2-top， chip-to-chip，server-to-server 的总线。技术核心特点：总线级互联：提供类似计算机内部总线的紧密连接能力，使得超节点内多个计算单元能够高效协同工作。协议归一化：通过统一互联协议，解决不同计算设备间的兼容性问题，降低系统复杂度。平等协同：超节点内各个计算单元处于平等地位，能够动态分配任务和负载。全量池化：将计算、存储和网络资源完全池化，实现资源的灵活调度和高效利用。大规模组网：支持极大规模计算集群组建，华为基于灵衢技术推出的超节点集群可支持50万卡至百万卡级别的算力规模。高可用性：具备故障自动检测、隔离和恢复能力，确保大规模计算系统的高可靠性。华为自2019年开始研究灵衢技术，目前已发布灵衢2.0技术规范并对外开放，包括《灵衢基础规范2.0》、《灵衢固件规范2.0》和《灵衢使能操作系统参考设计2.0》等核心文档3 chiplet 的封装技术支持Chiplet的底层封装技术维度代表技术厂商核心特点2DMCM (Multi-Chip Module)通用多芯片平铺在有机基板上，通过基板布线互连，成本低但密度有限2.5DCoWoS (Chip-on-Wafer-on-Substrate)台积电通过硅中介层或 RDL 中介层实现高密度互连，分为 CoWoS-S（硅中介层）、CoWoS-R（RDL 中介层）、CoWoS-L（LSI+RDL） EMIB (Embedded Multi-die Interconnect Bridge)Intel嵌入式硅桥技术，无需完整硅中介层，成本更低、灵活性更高 I-Cube三星分为 I-Cube S（硅中介层，类似 CoWoS）和 I-Cube E（Si Bridge + RDL，类似 EMIB） InFO\_oS / FOCoS-B台积电 / 日月光扇出型封装，使用 RDL 重布线层作为中介层3DSoIC (System-on-Integrated-Chips)台积电晶圆对晶圆键合，无凸点直接键合，真正的垂直 3D 堆叠 FoverosIntel有源中介层 3D 堆叠，使用 TSV 实现上下层芯片通信 X-Cube三星3D 封装技术，支持 HBM 与逻辑芯片垂直集成 Hybrid Bonding (混合键合)多家铜-铜直接键合，实现更高密度的 3D 互连封装技术目前主要由TSMC、ASE、Intel等公司来主导，包含从2D MCM到2.5D CoWoS、EMIB和3D Hybrid Bonding。本文主要介绍目前工业界主流的2D和2.5D封装技术和其优缺点。1. MCM（Multi-Chip Module）Multi-chip ModuleMCM一般是指通过Substrate（封装基板）走线将多个芯片互联的技术。通常来说走线的距离和范围可以在10mm~25mm，线距线宽大约10mm量级，单条走线带宽大约10Gbit/s量级。由于MCM可以通过基板直接连接各个芯片，通常封装的成本会相对较低，但是由于走线的线距线宽比较大，封装密度相对较低，接口速率相对较低，延时相对较大。MCM 是 2D 封装：所有芯片平铺在基板上，通过基板走线连接，技术成熟、成本最低，但布线密度受限（线宽通常 >12μm）2. CoWoS(Chip-on-Wafer-on-Substrate)CoWoS是TSMC主导的，基于interposer（中间介质层）实现的2.5D封装技术，其中interposer采用成熟制程的芯片制造工艺，可以提供相比MCM更高密度和更大速率的接口。目前TSMC主流的CoWoS技术包括：CoWoS-S：基础CoWoS技术，可以支持超高集成密度，提供不超过两倍掩膜版尺寸的interposer层，通常用于集成HBM等高速高带宽内存芯片。CoWoRCoWoS-R：基于前述CoWoS-S技术，引入InFO技术中的RDL（Redistribution Layer），RDL 中介层由聚合物和铜迹线组成，具有相对机械柔韧性，而这种灵活性增强了封装连接的可靠性，并允许新封装可以扩大其尺寸以满足更复杂的功能需求，从而有效支持多个Chiplets之间进行高速可靠互联。CoWoS-RCoWoS-L：在上述CoWoS-S和InFO技术的基础上，引入LSI（Local Silicon Interconnect）技术，LSI 芯片在每个产品中可以具有多种连接架构（例如 SoC 到 SoC、SoC 到小芯片、SoC 到 HBM 等），也可以重复用于多个产品，提供更灵活和可复用的多芯片互联架构。CoWoS-L相比于MCM，CoWoS技术可以提供更高的互联带宽和更低的互联延时，从而获得更高的性能。同时，受限于interposer的尺寸（通常为2倍掩膜版最大尺寸），可以提供的封装密度上限相对比较有限，并且由于interposer的引入，需要付出额外的制造成本和更高的技术复杂度，以及随之而来的整体良率的降低。3. EMIB(Embedded Multi-die Interconnect Bridge)EMIBEMIB是Intel主导的2.5D封装技术，使用多个嵌入式包含多个路由层的桥接芯片，同时内嵌至封装基板，达到高效和高密度的封装。由于不再使用interposer作为中间介质，可以去掉原有连接至interposer所需要的TSVs，以及由于interposer尺寸所带来的封装尺寸的限制，可以获得更好的灵活性和更高的集成度。总体而言，相比于前述介绍的MCM、CoWoS和InFO/LSI技术，EMIB技术要更为优雅和经济高效，获得更高的集成度和制造良率。但是EMIB需要封装工艺配合桥接芯片，技术门槛和复杂度较高。CoWoS、EMIB、I-Cube 都属于 2.5D 封装：它们都通过中介层/硅桥实现比 MCM 更高密度的互连CoWoS 使用完整硅中介层，密度最高但成本也高EMIB 使用局部硅桥，性价比更好I-Cube E 是三星的"类 EMIB"方案SoIC、Foveros、X-Cube属于 3D 封装：实现芯片垂直堆叠，是真正的立体集成用于 HBM 堆叠、3D Cache 等场景"3.5D 封装"是混合概念：实际工程中常混合使用 2.5D 和 3D，例如逻辑芯片用 2.5D 放在中介层上，HBM 内存用 3D 堆叠，但这并非正式分类4 Chiplet架构挑战和洞察基于Chiplet的架构设计，首先要考虑不同Chiplets之间如何进行功能划分和架构定义，目前主流的设计思路大致可以分为两类：第一类基于功能划分到多个Chiplets，单个Chiplet不包含完整功能集合，通过不同Chiplets组合封装实现不同类型的产品，典型代表为Huawei Lego架构（Kunpeng & Ascend）、AMD Zen2/3架构。Huawei Lego架构：采用compute die（compute + memory interface）和I/O die组合的形式进行不同Chiplets功能拆解。在compute die（CPU/AI）设计时采用先进的工艺，获得顶级的算力和能效，在I/O die设计时采用成熟工艺，在面积与先进工艺差别不大的情况下获得成本收益。并且不同的Chiplets的数量和组合形式都可以灵活搭配，从而组合出多种不同规格的云端高性能处理器产品。AMD Zen3架构：采用CCD（compute）和CIOD（memory interface + I/O）组合的形式进行不同Chiplets功能拆解。在CCD设计时采用最先进的工艺，获得顶级的算力和能效，在CIOD设计时采用成熟工艺，在面积与先进工艺差别不大的情况下获得成本收益。并且CCD本身按照两个4C8T cluster组合的形式设计，可以适应AMD从Desktop到Server的架构需求，根据场景选择CCD数量和设计对应的CIOD即可，灵活度非常高。第二类单个Chiplet包含较为独立完整的功能集合，通过多个Chiplets级联获得性能的线性增长，典型代表为Apple M1 Ultra、Intel Sapphire rapids系列。Apple M1 Ultra：通过Apple自研的封装技术UltraFusion来堆叠两颗M1 Max芯片，使得两颗芯片之间拥有超过2.5TB/s带宽且极低延时的互联能力。基于这个互联的延时带宽能力，可以使得M1 Ultra直接获得两倍M1 Max的算力，同时在软件层面依然可以将M1 Ultra当做一个完整芯片对待，而不会增加额外的软件修改和调试的负担。Intel Sapphire Rapids：通过两组镜像对称的相同架构的building blocks，组合4个Chiplets，获得4倍的性能和互联带宽。每个基本模块包含计算部分（CHA & LLC & Cores mesh， Accelerators）、memory interface部分（controller， Ch0/1）、I/O部分（UPI，PCIe）。通过将上述高性能组件组成基本的building block，再通过EMIB技术进行Chiplet互联，可以获得线性性能提升和成本收益。基于Chiplet的架构设计，同时要考虑多个Chiplets如何进行有效互联和扩展，实现高效灵活可扩展的架构，避免多Chiplets之间出现信号死锁、流量拥塞等功能和性能问题。由于芯片内部互联通常为可靠连接假设下的并行数据传输，而芯片之间的互联通常为不可靠连接假设下的串行数据传输，根据芯片片上和片间互联架构的组合和流量收敛情况，目前主流的设计思路和应用场景大致分为两大类：第一类片上片间相同架构，流量全打平或基本打平。典型代表如Cerebras，采用从tile到single die到wafer scale engine完全相同的互联架构。另一个典型代表是Tesla DoJo，采用InFO-SoW的封装和芯片四边全部放置I/O接口的方式实现片内每个方向10TBps带宽，跨片每边4TBps，SoW集成后单边带宽9TBps。CS-1 Wafer Scale Engine第二类片上片间架构相似，片间流量按照一定比例收敛。典型代表一个是前述的Huawei Bufferless Multi-Ring架构，片上流量会收敛到分布式的各个跨片接口；另一个典型代表是前述的Apple M1 Ultra，片上流量收敛到UltraFusion集中交换部分。Bufferless Multi-Ring从计算负载的角度，当单个计算任务计算密度较高，超出单芯片算力范围的时候，需要多个芯片协同来完成，此时跨片数据交互也需要提供和片上数量级相当的带宽和延时，才能更有效利用算力，提高计算效率。典型的任务类型是AI的训练任务，前述Cerebras和DoJo的互联架构对这类场景有较强优势。当计算任务数量庞大，单个任务负载较小，跨片流量通常是要远小于片上流量的，此时采用流量收敛策略更为合适。
- 2026年04月16日
- 6 阅读
- 0 评论
- 0 点赞
2026-04-16
AI专题十三：地球上算力芯片参数汇总、整理、对比摘自：https://zhuanlan.zhihu.com/p/1908027882829244313前言：AI大模型能力的快速提升（如Qwen3、Llama4的多模态升级与逻辑推理优化）正推动AI从辅助工具向核心生产力渗透。而算力芯片的性能对大模型的训练、推理至关重要。本文通过统计全球主要算力芯片的算力、显存和互联带宽指标，对比海外第三方设计公司、海外大厂自研和国产芯片的单卡性能。不考虑软件（如CUDA）、Scale out架构（如华为CloudMatrix超节点）和成本。华为芯片缺少官方公布数据，所有暂时没有收录。英伟达、英特尔、AMD英伟达的芯片覆盖最广，包括高性能的H100、H200和B200，以及较早的V100、P100等，其产品线在算力和迭代速度均占据领先地位。英特尔的AI芯片为Guadi系列（如Guadi3），而AMD是MI系列（如MI325X、MI250X）。从时间线看，英伟达迭代速度最快，2023年后密集发布新品；AMD的MI300系列和英特尔的Guadi3则瞄准了同期的英伟达B200竞争。功耗设计上，英伟达B200的圆圈显著更大，凸显其高功耗高性能定位。美国互联网大厂谷歌的TPU系列最为成熟，从v2到v7p逐步提升算力，其中v5p和v7p的能效比设计突出；亚马逊的Trainium3、Meta的MTIA v2和微软的Maia 100是较新的竞争者，发布时间集中在2023-2024年。这些芯片的算力普遍低于英伟达旗舰（如TPU v7p的FP16性能接近B200），但功耗更低（圆圈较小），反映其优化能效的特点。谷歌的TPU发布时间跨度大，显示其长期投入，而Meta、亚马逊和微软的布局更晚但速度迅猛。国产芯片寒武纪的思元590、海光信息的BW100和沐曦科技的曦云C500在算力和功耗上领先，发布时间集中于2023-2024年。整体来看，国产芯片的算力水平与英伟达中端产品（如A100）接近，但功耗控制更分散（圆圈大小差异大），反映技术路线多样性。发布时间显示2020年后中国AI芯片进入爆发期，但国际巨头仍保持性能代差。一、算力指标制程：海外：第三方设计公司：为后续产品制程的升级预留了空间。英伟达最新的Blackwell系列使用了TSMC 4NP，相当于4nm高性能版本。AMD、英特尔最新产品的制程都是5nm。Groq为了追求性价比，使用GlobalFoundries的14nm。大厂自研：谷歌最新的TPU Ironwood（TPU v7p）和亚马逊的Trainium3都使用了最先进的3nm，Meta和微软使用了5nm。中国大陆：国内厂商在受到制裁之前，旗舰产品绝大多数都是使用TSMC 7nm。目前正在转向中芯国际7nm。燧原科技的所有产品都采用GlobalFoundries 的12nm工艺。晶体管数量/芯片面积/晶体管密度：芯片面积：由于掩膜版的尺寸，单个芯片最大曝光区面积限制为858mm²，可以通过Chiplet构建更大的芯片。晶体管密度：更高的晶体管密度允许在相同芯片面积内集成更多计算核心，直接提升并行计算能力。海外：第三方设计公司：英伟达的B200首次使用了Chiplet技术，包含了两个B100 Die，两个Die通过NV-HBI互联，芯片面积达到1600mm²，晶体管密度达到130百万/mm²。AMD的芯片一直都采用Chiplet，由许多小芯粒组成大芯片，芯粒之间通过Infinity Fabric互联.大厂自研：谷歌最新的TPU Ironwood（TPU v7p）晶体管密度达到了308 百万/mm²，是英伟达Blackwell的两倍多。TPU v6e和微软的Maia 100分别达到110百万/mm²和128百万/mm²。中国大陆：国内厂商多使用Chiplet技术，增强算力、降低成本。燧原科技2021年发布的邃思2.0的芯片面积3306 mm²，采用GlobalFoundries 12nm工艺，号称中国最大AI单芯片，达到了日月光 2.5D 封装的极限。各浮点运算次数海外：第三方设计公司：英伟达Blackwell系列的推出，巩固了其在深度学习训练和推理的领导地位。GB200的FP16算力达到5000TFLOPS，相比于H200提升了5倍以上。AMD的MI325X为1300TFLOPS，英特尔Gaudi3为1835TFLOPS，谷歌TPU Ironwood（TPU v7p）为2307TFLOPS，与GB200都有明显差距。同时，Blackwell通过第二代Transformer引擎和定制Tensor Core，首次在硬件上实现了FP4数据类型的直接处理。H20/H800：H20基于H200进行性能裁剪，通过牺牲计算性能换取合规性。H20的FP16算力为148 TFLOPS，FP8算力为296 TFLOPS，仅为H200的15%左右。H800与H100算力指标保持一致，根据美国商务部2023年10月17日发布的出口管制新规，H800 被列入禁售名单。大厂自研：多数ASIC聚焦于低精度领域，除谷歌外都处于起步阶段。谷歌最新的TPU Ironwood（TPU v7p）是首款专为推理而设计的加速器，FP16算力达2307TFLOPS，比前代提升了两倍多。亚马逊的Trainium3预计FP16算力达1310TFLOPS，是Trainium2的两倍。中国大陆：除华为外，FP16算力能达到300TFLOPS以上的国产芯片，只有寒武纪的思元590和海光信息的BW100。壁仞科技在2022年推出的BR100的FP16算力能达到1024TFLOPS，但因受到制裁，无法量产落地。功耗/能效比能效比：FP16运算次数/功耗（TFLOPS/W）海外：第三方设计公司：英伟达Blackwell的能效比在所有架构里面最高，体现英伟达超强的硬件设计能力。尽管GB200的功耗达到了2700W，但能效比仍能达到1.9，在业内处于领先地位。大厂自研：多数ASIC的功耗在700W以下，达到降本目的。但能效比仍低于英伟达的GPGPU。中国大陆：根据不完全统计，国产芯片的功耗绝大多数都在500W以下，能效比低于1。二、显存指标显存/显存带宽/显存容量海外：绝大多数海外厂商最新产品都配备HBM3e，因堆叠层数、频率和HBM堆栈数量的配置不同，显存带宽和容量不同。英伟达从H200开始使用HBM3e。GB200的显存带宽达16TB/s，容量达384GB，是H200的三倍多。H20和H800的显存分别与H200和H100保持一致，远高于国产芯片。中国大陆：因受到制裁，绝大多数国产芯片最新产品使用HBM2e。除采用HBM外，还有国产芯片使用GDDR和LPDDR。如昆仑芯二代芯片和摩尔线程S4000、S3000均使用GDDR6，寒武纪MLU370系列均使用LPDDR5。算术强度算术强度：总浮点运算次数/内存带宽（FLOPS/Byte）算术强度过高，说明内存带宽过低，芯片运行有内存瓶颈。海外：英伟达H100的算术强度较高，接近600FLOPS/Byte，随着HBM3e的使用，算术强度在H200和Blackwell系列逐渐降低。其他厂商因使用HBM3e且算力不高，算术强度都较低。中国大陆：国产芯片的算力水平较低，所以尽管显存带宽低，算术强度都较低，不存在带宽瓶颈。三、互联带宽双向互联带宽=每条链路单向带宽x链路数x 2海外：绝大多数厂商都开发了专有协议，带宽普遍在500GB/s以上。英伟达的NVLink5相比于NVLink4带宽翻倍，达到了1800GB/s。英伟达的NVLink依然有较强壁垒。AMD的Infinity Fabric4达到896GB/s。谷歌的ICI Links最高能达到672GB/s。H20使用NVLink4，带宽达到900GB/s，相较于国产芯片有较大优势。H800和A800都使用特供版NVLink，带宽只有400GB/s。中国大陆：国产芯片的互联能力普遍较弱，除华为外，带宽普遍在400GB/s以下。寒武纪思元270和思元590采用的MLU-Link，带宽分别达到600GB/s和372GB/s。海光信息BW100和沐曦科技的曦云C500的互联带宽能达到400GB/s。References:[1]英伟达：公司官网https://www.nvidia.cn/CSDN博客https://blog.csdn.net/qq_39815222/article/details/136897603墨天轮https://www.modb.pro/db/1830075219425452032[2]AMD：公司官网https://www.amd.com/zh-cn.html[3]英特尔：公司官网https://www.intel.cn/content/www/cn/zh/homepage.html[4]Groq：http://Sacra.comhttps://sacra.com/c/groq/[5]谷歌：The Next Platformhttps://www.nextplatform.com/2025/04/09/with-ironwood-tpu-google-pushes-the-ai-accelerator-to-the-floor/[6]亚马逊：Semianalysishttps://semianalysis.com/2024/12/03/amazons-ai-self-sufficiency-trainium2-architecture-networking/[7]Meta：公司官网https://ai.meta.com/blog/next-generation-meta-training-inference-accelerator-AI-MTIA/[8]微软：Semianalysishttps://semianalysis.com/2023/11/15/microsoft-infrastructure-ai-and-cpu/[9]寒武纪：公司官网https://www.cambricon.com/格隆汇https://finance.sina.com.cn/wm/2025-01-19/doc-inefpcsy0554481.shtml北方算网https://zhuanlan.zhihu.com/p/18044815862[10]昆仑芯：电子元件采购网https://www.ameya360.com/hangye/108036.html电子元器件采购网https://www.ameya360.com/hangye/108036.html知乎https://zhuanlan.zhihu.com/p/603925398捷睿星云http://www.jieruixingyun.com/busniess/intro/百度昆仑芯Product Briefhttps://paddlelite-demo.bj.bcebos.com/devices/baidu/K100_K200_spec.pdf[11]平头哥：公司官网https://img.102.alibaba.com/1622193035686/9898014ba4eb8adfd3f31db3b2cf26f3.pdf?spm=a2ouz.12987056.0.0.68229352l5LGSa&file=9898014ba4eb8adfd3f31db3b2cf26f3.pdf集微网https://www.sohu.com/a/374479009_166680[12]海光信息：鲸起Studiohttps://mp.weixin.qq.com/s/Oq3HZxFwOJuLTuwzj9RYQw北方算网https://zhuanlan.zhihu.com/p/18044815862华西证券研究所http://www.qdatis.com/files/20250207/447df7d38b08845b0b7fdf376030fd19.pdf格隆汇https://finance.sina.com.cn/wm/2025-01-19/doc-inefpcsy0554481.shtml[13]燧原科技: 美通社https://www.prnasia.com/story/296402-1.shtml与非网https://www.eefocus.com/article/498969.html智东西https://chedongxi.com/news/21214.htmlIT之家https://news.qq.com/rain/a/20211208A02G3B00[14]摩尔线程：公司官网https://www.mthreads.com/product/S3000TechPowerUphttps://www.techpowerup.com/316881/moore-threads-launches-mtt-s4000-48-gb-gpu-for-ai-training-inference-and-presents-1000-gpu-cluster[15]沐曦科技：CSDN博客https://blog.csdn.net/qq_23934063/article/details/132473834飞桨https://www.paddlepaddle.org.cn/support/news?action=detail&id=3334[16]壁仞科技：第一财经https://m.yicai.com/news/101501217.html电子工程专辑https://www.eet-china.com/mp/a152602.html[17]天数智芯：电子发烧友https://www.elecfans.com/d/2253998.html安信力http://www.anssionic.com/sgproducts_view.asp?main_id=20&small_id=71&id=244
- 2026年04月16日
- 3 阅读
- 0 评论
- 0 点赞
2026-04-16
AI专题十二：AI服务器系统部署 1. 部署deepseek V3.2，需要什么硬件条件，多少算力的计算，多少内存，什么型号CPU，这样部署后每秒多少token，同时支持多少人使用，麻烦给出计算过程一、真实情况：显存容量、算力、内存带宽三者共同决定性能对于大模型推理，这三个因素形成一个木桶效应，短板决定最终性能：最终性能 = min(显存容量限制, 算力限制, 内存带宽限制)显存容量 → 决定能运行什么模型、能服务多少并发用户如果模型都放不下，其他都免谈KV缓存大小决定了活跃请求数上限内存带宽（HBM带宽） → 决定生成token的速度上限自回归生成是内存带宽受限的每个token都需要读取大部分模型参数算力（FLOPs） → 决定预填充（Prefill）速度、能支持的请求频率处理长提示时需要大量计算高并发时需要快速处理多个请求二、考虑算力的完整分析让我们以DeepSeek-V3.2为例，同时考虑所有约束。假设模型参数：总参数量：671B激活参数：37B（MoE特性）隐藏维度：8192层数：80使用FP16/BF16精度场景：32张H100 SXM的完整性能分析约束1：显存容量限制（之前的计算）模型权重：671B × 2字节 = 1,342 GB单请求KV缓存：2 × 80 × 8192 × 2048 × 2字节 ≈ 5.36 GB 可用显存（32×80GB）：2,560 GB预留空间：100 GB可用KV缓存：2,560 - 1,342 - 100 = 1,118 GB 最大并发请求数：1,118 ÷ 5.36 ≈ 208个约束2：内存带宽限制（token生成速度）H100的HBM3显存带宽：3.35 TB/s理论token生成速度上限：每次生成一个token需要读取的数据量 ≈ 模型参数量 × 2字节 = 671e9 × 2 = 1.342 TB 32卡总带宽：32 × 3.35 TB/s = 107.2 TB/s理论最大token/s = 总带宽 ÷ 每次读取数据量 = 107.2 TB/s ÷ 1.342 TB/token ≈ 79.9 tokens/s 注意：这是纯理论最大值，实际中由于各种开销，通常能达到理论值的30-70%，即：实际token/s ≈ 24 - 56 tokens/s这比我们之前估算的3,200 tokens/s低很多！矛盾在哪里？约束3：算力限制（预填充速度）H100张量核心FP16算力：约989 TFLOPS预填充阶段计算量：计算量 = 2 × 激活参数 × 序列长度 = 2 × 37e9 × L tokens 对于L=512的输入：计算量 = 2 × 37e9 × 512 = 37.9e12 FLOPs32卡总算力 = 32 × 989 TFLOPS = 31.65e15 FLOPs/s理论预填充时间 = 37.9e12 ÷ 31.65e15 = 1.2毫秒看起来算力绰绰有余，但问题在于...三、关键发现：解码阶段的内存带宽是主要瓶颈实际瓶颈分析：内存带宽限制的是"每个GPU"的token生成速度单张H100理论最大：3.35 TB/s ÷ (671e9×2 ÷ 32) ≈ 80 tokens/s32张卡理论最大：80 × 32 = 2,560 tokens/s这更接近我们之前估算的3,200 tokens/s算力在解码阶段利用不足生成一个token只需约2 × 激活参数次FLOPs对于37B激活参数：2 × 37e9 = 74e9 FLOPsH100单卡需要：74e9 FLOPs ÷ 989e12 FLOPs/s = 0.075毫秒但等待内存读取数据需要：1.342 TB ÷ 3.35 TB/s = 0.4秒（慢5300倍！）这就是为什么大模型推理是"内存带宽受限"而不是"算力受限"的原因！四、用A100 vs H100的完整对比现在我们来对比您提出的方案：用更多A100替代H100。配置对比：方案A：32张H100 80GB方案B：64张A100 40GB（总显存相同）性能估算（考虑通信开销）：单请求生成速度假设需要TP=16（A100方案，因为单卡显存小）vs TP=8（H100方案）H100方案（TP=8）：每生成一个token的通信量：约隐藏维度×TP = 8192×8 = 65,536元素通信时间：65,536×2字节 ÷ 900 GB/s ≈ 0.15微秒（可忽略）A100方案（TP=16）：通信量：8192×16 = 131,072元素如果使用PCIe（64 GB/s）：131,072×2 ÷ 64 GB/s ≈ 4.1微秒如果使用NVLink桥接（600 GB/s）：131,072×2 ÷ 600 GB/s ≈ 0.44微秒但关键：A100需要跨更多卡通信，通信延迟增加实际吞吐量估算使用Roofline模型分析：对于解码阶段，性能受限于：实际吞吐量 = min(计算能力, 内存带宽能力)计算能力：A100方案更高（40 vs 31.6 PFLOPS）内存带宽能力：两者接近（128 vs 107.2 TB/s）但通信开销：A100方案显著更高综合估算：H100方案实际吞吐：~2,500-3,000 tokens/sA100方案实际吞吐：~800-1,200 tokens/s（由于通信开销）A100方案虽然总内存带宽和算力略高，但被更高的通信开销和更低效的并行策略抵消了。五、为什么H100仍然更优：不仅仅是硬件规格架构优化：H100有专门的Transformer引擎，优化了注意力计算通信效率：NVLink 4.0 + NVSwitch的全互联拓扑功耗效率：每token的能耗更低软件优化：新架构有更好的编译器支持和内核优化六、实际部署建议的修正基于完整分析，对于DeepSeek-V3.2：最低配置（兼顾成本）：16张H100 80GB + FP8量化理由：FP8量化将模型权重减半，16卡足够存放内存带宽：16 × 3.35 = 53.6 TB/s估算吞吐：1,200-1,800 tokens/s可支持并发：80-100个活跃请求平衡配置：24张H100 80GB + 混合精度理由：更好的并行效率，更高的并发内存带宽：80.4 TB/s估算吞吐：1,800-2,400 tokens/s高性能配置：32张H100 80GB + BF16精度理由：最大吞吐和并发内存带宽：107.2 TB/s估算吞吐：2,500-3,200 tokens/s七、总结：您的直觉部分正确不能只看显存容量，算力和内存带宽同样重要但现实是：对于大模型推理，内存带宽通常是主要瓶颈通信开销：当使用更多小显存GPU时，通信开销可能成为新的瓶颈实际选择：需要平衡显存、带宽、算力、通信效率和成本2. H100 GPU 连接关系H100 gpu 分H100 PCIe 和 H100 SXM，图片和区别如下：互联示意图如下：在主板上连接示意图
- 2026年04月16日
- 4 阅读
- 0 评论
- 0 点赞
2026-04-14
AI专题十一：AI系统全景概述部分内容来自：https://www.cnblogs.com/ZOMI/articles/18555010AI 系统：AI 时代连接硬件和上层应用的中间层软硬件基础设施。因此在部分语境中，又有人称为 AI Infra 人工智能的基础设施，但是因为基础设施更偏向于底层硬件、集群等内容，而 AI 系统是多的是强调让 AI 执行起来的系统体系结构，因此更愿意称包括软硬件的内容为 AI 系统。传统本地部署时代，三大基础软件（数据库、操作系统、中间件）实现控制硬件交互、存储管理数据、网络通信调度等共性功能，抽象并隔绝底层硬件系统的复杂性，让上层应用开发者能够专注于业务逻辑和应用功能本身的创新实现。云时代同理，形成了 IaaS、PaaS、SaaS 三层架构，其中 PaaS 层提供应用开发环境和基础的数据分析管理服务。类比来看，我们认为，进入 AI 时代也有承担类似功能的、连接算力和应用的基础设施中间层即 AI 系统，提供基础模型服务、赋能模型微调和应用开发。包括了如下图几个方面：大模型（算法应用）-AI训练和推理框架-AI编译和计算架构-AI硬件体系这四大体系的主要技术栈：下面分开简述这四大体系：AI 大模型AI 大模型框架实现解析：以 DeepSeek 系列为例目前主流 AI 大模型（包括 DeepSeek 系列）的底层实现主要依托于 PyTorch 生态，但在此基础上构建了高度定制化的训练与推理基础设施。具体的技术栈通常不对外完全公开，但通过开源模型结构与行业惯例可以推断其核心架构。以下是关于 AI 大模型实现框架的核心要点分析：.基础深度学习框架：PyTorch 主导绝大多数现代大模型（包括 DeepSeek、Llama 系列）均使用 PyTorch 作为基础开发框架。PyTorch 的动态图机制便于模型调试与研究，其丰富的生态库（如 torch.nn、torch.distributed）为构建复杂的 Transformer 架构提供了标准接口。..分布式训练基础设施：定制化加速为了支撑千亿参数规模的训练，团队通常会在 PyTorch 之上集成 DeepSpeed 或 Megatron-LM 等分布式库，甚至开发内部专有系统。针对 DeepSeek 特有的 MoE（混合专家）架构，训练框架需专门优化专家路由与负载均衡算法，以实现高效的稀疏计算。..推理引擎与部署优化：高性能运行时模型部署阶段通常不再直接使用原生 PyTorch，而是转换为高性能推理引擎。常见的方案包括 vLLM、TensorRT-LLM 或自研推理后端，通过算子融合、量化（INT8/FP8）及显存优化技术，显著降低延迟并提升吞吐率。..模型互操作性与开源生态为了兼容不同硬件与框架，大模型权重常支持导出为 ONNX 或 Safetensors 格式。DeepSeek 等开源模型允许社区在 Hugging Face 等平台直接加载，这意味着其结构定义遵循通用的 Transformers 库规范，便于跨框架迁移与二次开发。.综上所述，虽然具体的内部工程细节属于企业机密，但基于 PyTorch 的开源生态配合定制化分布式训练与推理引擎，是目前包括 DeepSeek 在内的大模型行业通用技术路径。这种架构既保证了研发的灵活性，又满足了生产环境对性能与稳定性的严苛要求。AI 训练与推理框架AI 训练和推理框架是深度学习生态系统中的基础设施，主要用于简化模型的开发、优化及部署流程。PyTorch 和 TensorFlow 确实属于这类框架，它们不仅支持模型的训练过程，也提供了推理能力，但在实际生产环境中，二者往往配合专用的推理引擎使用。框架的核心职能：从算法到算力的桥梁AI 框架的核心价值在于屏蔽底层硬件差异，让开发者专注于算法逻辑。它们通过自动微分机制计算梯度，利用计算图优化技术调度资源，从而实现高效的模型迭代。训练阶段：负责数据加载、前向传播、损失计算、反向传播及参数更新，支持分布式训练以加速大规模模型收敛。推理阶段：加载训练好的权重，对新数据进行预测计算，注重低延迟、高吞吐及内存占用优化。PyTorch 与 TensorFlow 的定位与差异这两款主流框架均覆盖了训练与推理的全链路，但设计哲学略有不同。PyTorch 以其动态图机制和灵活的 Python 接口著称，深受学术界和研发人员喜爱；TensorFlow 则拥有成熟的静态图优化能力和强大的服务端部署生态（如 TF Serving），在企业级生产中应用广泛。通用性：两者均支持构建复杂的神经网络结构，并提供丰富的预训练模型库。部署能力：虽然都支持直接推理，但为了极致性能，通常会将模型导出为中间格式（如 ONNX）或使用专用编译器（如 TorchScript、TFLite）进行加速。训练框架与推理引擎的生态协同在实际工程落地中，"训练框架"与"推理引擎"常有分工。训练框架侧重灵活性与易用性，而推理引擎侧重性能与资源管控。模型导出：训练完成后，模型常被转换为特定格式（如 .pt、.pb、.onnx），以便在不同硬件上运行。专用加速：生产环境常使用 TensorRT、OpenVINO 等推理引擎加载框架导出的模型，以充分发挥 GPU 或 NPU 的算力，实现比原生框架推理更高的效率。核心能力总结为了更清晰地理解这两类框架的功能边界，以下列举其关键能力：自动微分系统：自动计算梯度，免除手动推导公式的繁琐，是训练深度学习模型的基础。计算图优化：通过算子融合、内存复用等技术，减少计算开销并提升执行效率。硬件抽象层：统一接口支持 CPU、GPU 及各类 AI 加速芯片，实现代码的跨平台运行。生态工具链：提供数据预处理、模型可视化、调试及部署服务的一站式解决方案。动态与静态模式：支持动态图便于调试研发，支持静态图便于生产部署优化。综上所述，PyTorch 和 TensorFlow 是典型的 AI 训练与推理框架，它们构成了现代人工智能开发的主干。但在高性能部署场景下，通常会结合专用的推理引擎或编译器，以实现从算法研发到终端落地的最佳性能平衡。类似验证中的UVM、OVMAI编译器概述编译器可以将整个程序转换为目标代码(object code)，这些目标代码通常存储在文件中。目标代码也被称为二进制代码，在进行链接后可以被机器直接执行。典型的编译型程序语言有 C 和 C++。当前，AI 编译器的发展阶段似乎回到了 GCC 出现之前的时代。每家 AI 芯片公司都在推出自己的 AI 编译器、框架甚至软件栈，市场上出现了极度碎片化的现象。这种理解抓住了 AI 编译器的核心流向，但在具体的技术实现细节上存在简化。AI 编译器的工作流程比“直接编译 Python 到二进制”更为复杂，涉及多层抽象与优化。以下是对其输入输出机制的详细解析：输入层面：计算图与中间表示（IR）而非纯 Python 代码AI 编译器的直接输入通常不是原始的 Python 脚本，而是由深度学习框架（如 PyTorch、TensorFlow）生成的计算图（Computational Graph）或中间表示（IR）。技术细节：Python 在此过程中主要充当“宿主语言”，用于定义模型结构。编译器前端会通过追踪（Tracing）或图捕获（Graph Capture）技术，将 Python 代码转换为与语言无关的中间表示（如 ONNX、TorchScript、HLO 等）。原因：直接编译动态类型的 Python 代码效率极低，转换为静态 IR 后，编译器才能进行算子融合、内存优化等高级变换。输出层面：运行时引擎与集成库而非单一 Kernel 文件编译后的产出物通常不是一个独立的 GPU Kernel 二进制文件，而是一个包含多个优化算子、内存管理逻辑及调度策略的运行时库或模型引擎。技术细节：最终产物可能是动态链接库（.so/.dll）、序列化模型文件（如 TensorRT 的 .engine 或 TVM 的 .tar），其中封装了多个针对特定硬件优化的 Kernel 代码（如 CUDA PTX 或机器码）。原因：深度学习模型由成百上千个算子组成，编译器需要生成完整的执行计划，处理数据搬运、内核启动及同步，单一二进制文件无法承载完整的推理逻辑。Python 的角色：接口调度而非计算主体在整个编译与部署链路中，Python 主要承担接口调用与数据调度的角色，而非实际计算负载的承担者。技术细节：在推理阶段，Python 脚本负责加载编译好的二进制引擎，将输入数据张量传递给底层运行时，由编译后的 native 代码在 GPU 上执行密集计算。补充信息：这种架构设计实现了“开发效率”与“运行性能”的解耦，开发者使用友好的 Python 生态，而机器执行高效的底层二进制指令。综上所述，AI 编译器实质上是一个将高层模型描述转换为硬件专属高效指令集的翻译与优化系统，其核心价值在于屏蔽硬件差异并最大化算力利用率。AI硬件架构AI硬件架构主要包括CPU、GPU、TPU、NPU和LPU五大类型，并通过系统级协同和混合部署实现高效算力支撑。核心硬件类型与特点CPU（中央处理器）CPU专为通用计算设计，适合处理复杂逻辑、分支和系统级任务，严格遵循冯·诺依曼结构，核心包括控制单元和算术逻辑单元（ALU）。在AI系统中，CPU负责任务调度、队列管理、资源分配以及强化学习（RL）环境的仿真和多智能体控制。 GPU（图形处理器）GPU擅长大规模并行浮点运算，适合深度学习训练和推理。现代GPU通过CUDA、Tensor Core等技术支持通用计算，成为AI计算的核心加速器。 TPU（张量处理单元）TPU是Google开发的专用AI加速器，针对矩阵运算和深度学习优化，提供高吞吐量和低延迟，适合大规模模型训练和推理。NPU（神经网络处理器）NPU面向边缘设备和移动端AI应用，优化低功耗、高效推理，支持语音识别、图像处理等任务。LPU（逻辑处理单元）LPU用于特定逻辑加速场景，如AI推理中的规则计算和控制逻辑，通常与NPU或GPU协同工作。来源系统级协同与混合部署CPU-GPU协同：在多智能体、强化学习和复杂仿真场景中，CPU负责环境步进、控制逻辑和数据管理，GPU负责梯度计算和模型训练。提高CPU:GPU比值可优化GPU利用率，降低空转和延迟。混合算力架构：结合本地GPU与云端租用GPU，形成“本地核心算力池+云端弹性算力池”，既保证数据安全和低延迟，又能应对突发峰值需求，实现成本和效率的平衡。 AI应用解决方案中的硬件架构成熟的AI应用通常由三大模块构成：智能硬件终端：支持多模态交互，如语音、人脸、触觉等。AI技术中台：提供核心算力和模块化能力，快速响应定制化需求。数据服务体系：收集用户行为数据，进行分析和策略输出，实现全链路闭环的智能决策。发展趋势AI芯片市场持续增长，专用推理芯片和系统级性能优化成为核心竞争力。CPU与GPU的协同效率将成为数据中心设计重点，系统级优化取代单芯片性能。混合部署和垂直整合将加速，满足大模型训练、实时推理和多任务并发需求。通过理解这些硬件架构及其协同方式，开发者可以根据应用场景选择合适的算力方案，实现AI系统的高效运行。
- 2026年04月14日
- 17 阅读
- 0 评论
- 0 点赞