备注：未来主要是看Nvlink、UAlink、Unified Bus

在 AI 训练和推理中，单卡性能固然重要，但当模型规模、数据量持续膨胀时，模型参数到达几十亿甚至上千亿参数，单张 GPU 的显存与算力已无法独立承载训练、推理任务，多卡并行成为唯一选择。这时候，卡与卡之间的互联带宽、延迟、拓扑结构就成了制约整体性能的关键瓶颈。

（图源：GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站）

本文主要介绍节点内部的GPU互联，节点间的GPU互联涉及网络部分，后面开新篇详细讲解。

大模型训练时，模型的权重矩阵被切分到不同 GPU，每次前向/反向传播都要交换激活或梯度。这种通信量大但延迟敏感的场景，放在节点内更高效，因此单节点内，会经常有张量并行的场景。

这种高带宽、低延迟的互联需求，也催生了GPU互联技术的发展。

1、PCIe

最初，大家都使用PCIe 进行互联，GPU 插卡通过 PCIe 接入主板，生态成熟、通用性强、设备即插即用。

（图源：《电子发烧友》）

但随着模型规模不断增大，PCIe 的带宽逐渐显得不足。

以某PCIE GPU服务器为例，每个CPU下连接一个PCIe Switch芯片，每个PCIe Switch芯片连接5张GPU。GPU0-GPU3、GPU4-GPU7的两组GPU，内部可以通过PCIe switch通信，但如果需要跨组通信，只能通过CPU之间UPI来进行（GPU 1 -> PCIe 总线 -> CPU -> PCIe 总线 -> GPU 8）。

（图源：元脑®服务器 NF5468G7 系列技术白皮书）

不过，即使是最新的PCIe 技术，提供的带宽也有限。PCIe 4.0 x16 单向带宽约 32 GB/s，PCIe 5.0 64 GB/s。相比 GPU 内部早已上TB/s的显存带宽，这显然成了“木桶效应”中的短板，成了拉低通信效率的瓶颈。

为了解决这一瓶颈，GPU 厂商开始探索专门的GPU互联通道。

2、英伟达NVLink

NVLink首次作为GPU互联技术随NVIDIA P100 GPU推出，此后与每一代新的NVIDIA GPU架构同步发展。从最初的简单GPU-GPU连接，到如今的全系统互联解决方案，NVLink已经成为高性能GPU互联的代名词。

2016年，NVLink 1.0 与 P100 GPU 一同发布（顺便说一句，Tesla P100也是全球首个支持高带宽 HBM2 内存技术的 GPU 架构），一张 GPU 支持最多 4 条 NVLink，每条链路双带宽约 40 GB/s ，整个芯片的总双向带宽达到了 160GB/s，大大突破了PCIe 3.0 带宽限制（PCIe 3.0 x16 双向仅 ~32 GB/s）。

2017 年，NVLink 2.0 随 V100 (Volta 架构) 推出，每条链路双向带宽提升至 50 GB/s，单卡支持 6 条链路，总带宽最高 300 GB/s。

NVLink2.0 技术虽然大大提高了带宽，但是单服务器中 8 个 GPU仍然无法做到全连接，为解决该问题，NVIDIA 在V100发布同年，发布了 NVSwitch，实现了 NVLink 的全连接。

GPU所有的端口都用于与SW互联，数据在所有NVLink通道上交错传输，支持任意两块 GPU 之间的全带宽，NVLinks 的总带宽未超，对单个 GPU 的传输就不会阻塞。

到如今，NVLink已经发展到了第五代，几乎每一代的带宽都是翻倍增长，最新的第五代性能已经高达1.8T/s。第五代NVIDIA NVSwitch更是配备144 个NVLink 端口，无阻塞交换能力达到了14.4 TB/s。

备注：NVLink 和 NVSwitch 是英伟达（NVIDIA）为解决高性能计算和人工智能（AI）场景下多 GPU 间通信瓶颈而设计的两项核心技术。它们虽然紧密相关，但角色和功能有本质区别。下面从基础概念、功能定位、技术演进、工作原理和实际应用等方面进行详细分析。

NVLink：点对点连接

最初设计用于替代带宽受限的 PCIe 接口。
支持两个设备（如 GPU-GPU 或 GPU-CPU）之间直接通信，提供远高于 PCIe 的带宽和更低的延迟。
例如：两张 A100 GPU 通过 NVLink 直连，可实现高达 600 GB/s 的双向带宽（A100 SXM4）。
NVSwitch：全互连拓扑构建者

解决多 GPU 系统中“无法全互联”的问题。
在一个服务器内（如 DGX 系统），NVSwitch 芯片允许多个 GPU（如 8 个或 16 个）通过 NVLink 连接到同一个交换矩阵上，实现“每个 GPU 都能直接与其它所有 GPU 通信”。
消除了传统 PCIe Switch 或树状拓扑中的通信瓶颈。

3、AMD Infinity Fabric

AMD 2017年随Ryzen/EPYC 首次提出Infinity Fabric，是一种专有的系统互联架构，用于促进所有连接组件之间的数据和控制传输。

目前，Infinity Fabric已经进入了第四代，每条 Infinity Fabric 链路支持高达 32 Gbps 的传输速率，提供 128 GB/s 的双向带宽（跟PCIe 5.0很像呢）。主要为环形或者网状拓扑。

4、国产厂商互联技术

国产芯片厂商的资料一般不公开，以下内容也是基于互联网资料整理的。

华为昇腾HCCS

昇腾 910B（尤其是 910B2）使用的是 HCCS 高速缓存一致性系统，相当于华为版本的 NVLink，专门用于芯片间高速通信与缓存一致性，卡间互连带宽为约 392 GB/s。

华为unified bus

衢定义为面向超节点（SuperPoD）的统一互联协议，旨在将 I/O、内存访问、异构计算单元（CPU/NPU/GPU等）之间的通信融合到同一技术体系中，实现高性能、高协同、高弹性的计算基础设施。

寒武纪 MLU-Link™多芯互联技术

（公开资料比较老）MLU370-X8智能加速卡支持MLU-Link™多芯互联技术，提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡，可实现4张加速卡为一组的8颗思元370芯片全互联，每张加速卡可获得200GB/s的通讯吞吐性能，带宽为PCIe 4.0 的3.1倍，可高效执行多芯多卡训练和分布式推理任务。

沐曦 MetaXLink

采用自研MetaXLink高速接口，支持单机8卡全互联，显著提升多卡协同效率

壁仞BLink
原创BLink™高速GPU互连技术，单卡互连带宽最高达448 GB/s，并支持单节点8卡全互连

燧原 GCU-LARE

GCU-LARE全域互联技术是燧原专为AI训练集群研发的互联技术，提供双向300 GB/s互联带宽，支持数千张云燧CloudBlazer加速卡互联，可实现优异的线性加速比。

Gen-Z

Gen-Z 其实是一堆行业巨头不满意 Intel 技术垄断和演进的情况下，合作搞出的新型高速互连标准，AMD、ARM、博通、Cray、戴尔 EMC、HPE、华为、IBM、联想、Mellanox (NVIDIA)、美光、红帽、三星、希捷、SK 海力士、西数、赛灵思等等都在其中，CPU，模组，网络，服务器，存储，连接器，操作系统，硬盘，FPGA的龙头老大都已经齐聚一堂，好像也看到无处不在的大陆连接器线缆龙头大哥，立迅精密.

Gen-Z架构专注于提供高效率、高带宽和低延迟.

Gen-Z 面向数据中心和服务器市场，是一种以内存为中心的总线结构式协议，具备高带宽、低延迟、先进工作负载、良好兼容性和经济性等优点.

通过利用经过验证的装载/存储模型实现高效率。简化了Gen-Z硬件接口层，从而最大限度地减少了对软件层的需求。消除这种复杂性、开销和诱导系统延迟可以显着提高系统性能。

高带宽以两种方式实现。Gen-Z支持非对称通信路径，这意味着可以将更多通道专用于读取路径而不是写入路径，反之亦然。此外，Gen-Z支持多种信令速率，包括16,25,32,56和112 GT / s,总而言之，这些功能将使Gen-Z能够跟上行业不断增长的速度需求，同时还允许将Gen-Z通信路径调整为特定的工作负载流量模式.

通过减少软件堆栈来实现低延迟,与传统的服务器存储和大量分层的网络堆栈不同，Gen-Z采用轻量级软件接口，直接对硬件进行内存读写操作.
Gen-Z 1.0 标准采用 PCIe 物理层和修改的 IEEE 802.3 以太网电气层标准，但在物理层上只定义了 PCIe 4.0，因此每通道速度最快只有 25GT/s，要想充分利用标准的全部性能，也必须满足 PHY 物理层面的所有规定.

Gen-Z 1.1 则引入了 PCIe 5.0，每通道速度提高到 32GT/s，同时在比较宽松的技术限制下，就可以实现 Gen-Z-E-PAM4-50G-Fabric 链接，原始数据率 53.125GT/s，一切都以达到更高的传输速度、更低的延迟为目标，毕竟这也是该标准的初衷

目前主流的AI算力芯片板卡（如NVIDIA、AMD、Intel的GPU/AI加速卡）均未采用Gen-Z接口。它们主要使用PCIe和厂商私有的高速互联协议（如NVLink、Infinity Fabric）。

这背后是技术路线、生态锁定和成本效益等多重因素共同作用的结果。以下是详细分析：

一、当前主流AI算力卡的互联接口
PCI Express：行业标准与“基线”
作用：这是所有AI加速卡与主机CPU、系统内存及其他设备通信的标准、必需的接口。目前主流是PCIe 5.0，正在向PCIe 6.0过渡。
原因：PCIe是服务器和PC行业的通用标准，提供了必不可少的系统兼容性、枚举和基础I/O功能。任何加速卡都必须通过PCIe与主机连接。
厂商私有高速互联协议：性能的“核心”
NVIDIA NVLink：用于H100、B200等卡间的直接高速互联。其带宽远超PCIe（例如，H100的NVLink 4.0带宽达900GB/s），是构建多卡统一内存域、实现高效模型并行（如张量并行）的关键。它通过SXM形态或NVLink Bridge实现。
AMD Infinity Fabric：在AMD Instinct MI300系列等加速卡上，用于GPU to GPU的直接高速连接，功能与NVLink类似，是AMD生态内构建多卡系统的核心。
为什么用私有协议？因为这些协议由芯片设计方深度定制，可以与自家GPU的架构（如内存控制器、缓存一致性协议）实现最优协同，达到极低的延迟和极高的带宽，这是通用标准短期内难以匹敌的。
二、为什么Gen-Z未被AI算力卡采用？
Gen-Z是一种以内存语义为中心的开放互连标准，旨在实现CPU、内存、加速器和存储之间的高效数据共享。它未能成为AI算力卡主流接口的主要原因如下：

生态锁定与先发优势
NVIDIA的统治地位：其NVLink + CUDA 生态已成为AI训练和高端推理的事实标准。客户购买H100不仅买硬件，更是购买整个软件栈和优化过的多卡通信库（如NCCL）。切换到Gen-Z意味着打破这个封闭但高效的生态，对NVIDIA和客户都无益处。
AMD的路径依赖：AMD同样选择了发展自己的Infinity Fabric，并在其CPU（EPYC）和GPU（Instinct）之间通过 Infinity Architecture 进行深度集成，形成了自己的协同生态。
技术定位与需求错配
Gen-Z的核心优势在于内存池化和解耦，让各种设备可以像访问本地内存一样访问共享内存池。这对于某些数据中心架构（如分解式存储、内存池）很有吸引力。
AI算力卡的核心需求是极致的点对点通信带宽和低延迟，以支持大规模模型并行训练。NVLink/Infinity Fabric作为紧耦合的专用互联，在为特定芯片对优化这方面，比通用的Gen-Z更有优势。
成本与复杂性
在主芯片（GPU）上集成额外的Gen-Z控制器会增加芯片面积、功耗和设计复杂性。
在板卡和主板层面，需要增加Gen-Z所需的物理接口和线缆，这会增加系统成本和设计难度，而性能收益对于AI工作负载而言并不明确。
标准竞争的结局
近年来，另一个标准 CXL 在内存语义互连的竞争中逐渐占据了上风，得到了Intel、AMD、ARM及整个服务器生态链的更广泛支持。CXL基于PCIe物理层，兼容性更好，发展路径更清晰。行业焦点已从Gen-Z转向了CXL。
三、未来趋势：CXL与UCIe
虽然Gen-Z未成为主流，但解决内存墙和异构计算通信问题的需求依然存在，新的接口标准正在崛起：

CXL：目前最受瞩目的行业标准。它运行在PCIe物理层之上，专注于实现缓存一致性的内存共享。未来，AI加速卡可能会集成CXL接口，目的不是为了卡间直连，而是为了让GPU能够更高效、更一致地访问CPU内存甚至池化内存，从而突破单卡显存容量限制。
UCIe：这是一个芯片级的裸片互连标准。未来，AI算力芯片可能通过UCIe在封装内部直接与其他芯片（如CPU、专用加速器、HBM）连接，实现比板级互联更高的带宽和能效。这可以看作是“更近一步”的NVLink

5.桥接器、SXM、OAM : 高速互联GPU的硬件实现

这么多GPU高速互联的技术，最终都要落到实际的服务器硬件实现。

第一种就是桥接器，最开始是NVIDIA 专为 PCIe GPU 而设计的物理桥接设备。它能让两个 GPU 建立直接高速连接，绕开主板的 PCIe 主干，总带宽远高于单纯依赖 PCIe 通道的多卡互联方式。

后面很多其他厂商也学过去了。桥接器的好处就是，只用PCIe 服务器，就能获得高速互联，但是相对而言限制比较大，大部分可以做到2卡高速互联。

要想做到单节点所有GPU全互联，就需要改变服务器的硬件形态了。

以H100为例，板卡有两种形态，一种是PCIe板，一种是SXM板。

SXM板集成了 H100 GPU 和 HBM3 内存堆栈，并支持第四代 NVLink 以及 PCIe Gen 5 连接，提供最优的应用性能。

这种SXM卡用于英伟达的DGX/HGX平台，就是我们常说的GPU模组，这个模组里面集成了GPU、NVLink、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能。

各家服务器厂商就根据英伟达的这个模组来开发服务器的硬件平台，大部分就是专供英伟达使用了。

但是英伟达的模组都是自己私有化的，其他GPU厂商怎么办呢？

2019年OCP全球峰会期间，百度宣布与Facebook、微软展开合作,联合制定OAM (OCP Accelerator Module)标准。该标准用于指导AI硬件加速模块和系统设计。

2019年在美国丹佛举行的SC19全球超算大会上,浪潮正式发布全新的AI开放加速系统MX1,可在一个AI服务器支持多种符合OAM(OCP Accelerator Module)规范的AI芯片,这也是全球首个可支持多家不同型号的AI芯片直接更换的AI开放加速系统。

OAM标准定义了AI加速器的统一接口，支持ASIC、GPU和FPGA等多种架构，并在物理形态、电源、连接器、引脚定义和系统架构方面提供创新设计。

6. 未来演进

UAlink

UALink 是 Alibaba、AMD、Apple、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta、Microsoft和Synopsys 发起。国内的一些AI 芯片厂商大概率会放弃自研的link 方式，切换到UAlink，因为实力和市场不容许。

通用的UAlink

Ultra Accelerator Link™ (UALink™)联盟于2024年10月注册成立，是致力于制定UALink规范的开放行业标准组织。该规范作为高速、可扩展的加速器互联技术，可提升下一代AI和高性能计算集群性能。联盟由行业领军企业组成的董事会领导，包括：Alibaba、AMD、Apple、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta、Microsoft和Synopsys。联盟制定的技术规范为新兴AI应用模式实现突破性性能提供便利，同时支持构建数据中心加速器的开放生态系统。

UALink通用规范2.0
为UALink技术引入网内计算，促进加速器之间的计算和通信。
降低延迟、节省带宽，提升UALink系统在复杂和多工作负载环境下的AI解决方案分布式训练和推理的扩展效率。
UALink 200G数据链路和物理层(DL/PL)规范2.0
将DL/PL规范从UALink通用规范中拆分，使UALink能够根据行业对新型物理层和速率的需求快速迭代，无需修改其他规范。
引入UALink作为具备集中控制平面和管理平面的系统。
采用gNMI、Yang、SAI和Redfish等标准化协议、模型和应用程序接口。
定义将UALink技术集成至基于芯粒的片上系统所需的关键信息，包括接口、外形规格、流量控制和芯粒管理标准化。
完全兼容UCIe® 3.0规范，简化与现有芯粒生态系统的集成。
UALink可管理性规范1.0
UALink芯粒规范1.0
随着UALink技术持续发展，联盟计划推出互操作性与合规项目，以支撑稳健的多厂商生态系统。欢迎有意推动UALink技术发展并参与相关项目建设的企业加入联盟，共同制定未来UALink规范。

AMD 是为放弃Infinity Fabric 还是全面拥抱UAlink，AMD有这个实力。根据当前公开的技术信息和行业趋势，AMD在未来很可能会采取“双轨制”策略，即继续发展和使用Infinity Fabric作为其自家产品内部的核心互联技术，同时积极参与并推广UAlink作为跨厂商、开放生态的外部互联标准。两者并非替代关系，而是互补共存。

Infinity Fabric将继续作为AMD产品架构基石
Infinity Fabric是AMD自Zen架构以来为其处理器和加速器设计的专有、高性能内部互连总线。它深度集成于AMD的芯片设计中，用于连接CPU核心、CCD、IO芯片以及GPU，是实现其模块化设计和高性能的关键。放弃这一成熟且不断演进的技术（如发展到IFOP 3.0）对AMD而言既不现实也无必要。它将继续在EPYC CPU与Instinct GPU的紧耦合计算单元（如MI300X的8卡互联）中发挥核心作用。410

AMD积极主导UAlink以构建开放生态对抗NVLink
UAlink的定位与Infinity Fabric不同。它是由AMD、英特尔、谷歌、微软等巨头联盟推动的开放式加速器互联行业标准，旨在为AI服务器集群中的任意品牌加速器（AMD、Intel等）提供高速、低延迟的互连方案，直接目标是打破英伟达NVLink的封闭生态壁垒。AMD是UAlink联盟的核心发起者和主推者之一，其动机在于通过开放标准吸引更多客户和合作伙伴，扩大其AI加速器的市场渗透率。因此，AMD必将大力支持并推广UAlink。2612

两种技术将并存于不同场景
未来AMD的产品路线图很可能呈现以下分工：

内部紧密集成场景：在单机或机架内纯AMD硬件（如EPYC + Instinct MI系列GPU）构成的计算单元中，将继续优化并使用Infinity Fabric以实现最高效的內部通信。这是其性能优势所在。
外部异构集群场景：在需要大规模扩展、或与其他厂商硬件（如英特尔GPU、第三方交换机）混合组网的AI数据中心集群中，AMD的加速器将支持并首选UAlink标准进行互联。这符合其开放生态战略。AMD已明确表示，其下一代机架级解决方案“Helios”将同时支持Infinity Fabric和UAlink。58
结论：互补而非切换
AMD不会“全面切换”到UAlink而放弃Infinity Fabric。相反，它将：

对内巩固：持续投资Infinity Fabric，作为其芯片内部及自家产品组合间的高性能私有通道。
对外开放：全力推动UAlink成为行业事实标准，确保其AI硬件能在多供应商环境中无缝互联，增强市场竞争力。
这种策略使AMD既能保持核心技术优势，又能参与定义开放生态，是最符合其商业和技术利益的路径。对于用户而言，未来的AMDAI解决方案将根据部署环境（纯AMD栈或异构集群）灵活启用这两种互联技术。

英特尔将采取“两手准备、优先自研、拥抱开放”的战略，最终会以自研技术为核心，同时积极兼容并影响开放标准（如UALink）。

一、核心判断：英特尔的选择逻辑
作为追赶者，必须打造差异化核心竞争力英特尔深知，若只在通用GPU领域跟随英伟达，难以超越。其真正的差异化路线是 “XPU”异构计算，即将CPU、GPU、AI专用加速器（如Gaudi）、FPGA等通过高速互连集成。为此，自研的互联技术是其异构战略的“骨架”和核心技术壁垒，不可能完全放弃。

生态建设的现实需求：必须加入开放阵营作为市场挑战者，英特尔没有英伟达CUDA生态那样的统治力。要吸引客户（尤其是微软、谷歌等云巨头），就必须证明其产品能与现有基础设施（通常包含多厂商硬件）良好互通。加入并支持UALink这样的开放标准，是降低客户采用门槛、融入多云生态的必经之路。

对于英特尔而言，自研互联技术（Xe Link, Foveros）与拥抱开放标准（UALink, CXL）不是非此即彼的选择，而是同时进行的双重战略：

对内/底层：用顶尖的自研封装和互连技术（Foveros/EMIB/Xe Link）来保证其AI芯片产品的绝对性能和能效竞争力，这是与英伟达H100、AMD MI300系列正面竞争的硬实力。
对外/上层：积极参与并领导CXL、UALink等开放标准，打造开放的、以CPU和通用标准为中心的异构计算生态。这既是团结盟友对抗英伟达的需要，也是其作为系统平台厂商和潜在代工厂商的长期利益所在。

Unified Bus

UB协议在设计上旨在分层支持这四种互联场景，但其在不同层级的物理实现和性能目标有所不同。

关于UB是否会全面替换华为原有的HCCS（High-Performance Computing and Communication Switching）协议，答案是：UB是HCCS在架构上的演进和升级，预计将逐步成为华为未来全场景互联的单一协议栈，但替代过程是渐进的。

技术演进关系：
HCCS的定位：HCCS是华为早期自研的高速片上互联网络协议，主要用于鲲鹏CPU多核之间以及升腾NPU之间的高速互联18。它类似于AMD的Infinity Fabric或Intel的UPI，实现了多核间的一致性互联，为华为突破单芯片性能瓶颈提供了基础。
UB的超越：UB不仅仅是芯片内或板级互联协议，其愿景更宏大——它旨在成为从芯片内到数据中心级别的统一互联架构。UB在协议层抽象了物理介质，可以运行在从封装内裸片链路到长距离光缆的不同物理层上10。
替代的必然性与路径：
架构代差：UB提供的“对等架构”和“统一内存空间”理念，比HCCS所服务的主从架构更先进，能更好地支撑超大规模智算集群10。
产品路线图驱动：华为已经发布了基于UB的Atlas 950/960 SuperPoD超节点和TaiShan 950 SuperPoD通算超节点，这些新一代产品的核心互联已明确采用UB协议2711。这表明在新一代硬件平台上，UB已成为首选。
生态统一需求：华为推行“硬件开放、软件开源”策略，一个统一的互联协议栈（UB）有利于降低生态伙伴的开发复杂度和成本712。
过渡期安排：
短期并存：在现有已部署的基于HCCS的硬件（如某些型号的鲲鹏服务器、升腾910等）生命周期内，HCCS仍将被支持。
长期收敛：在2026年及之后的新一代产品（如升腾950、鲲鹏950后续型号）和超节点集群中，UB将全面成为互联基础，HCCS的角色将逐渐弱化或被整合进UB协议栈中311。
结论
华为Unified Bus是一个雄心勃勃的跨层级统一互联协议，旨在用一套架构覆盖从芯片到数据中心的全场景。它将不仅是HCCS的功能性替代，更是一次互联范式的升级，以适应“数据中心即计算机”的未来算力需求。因此，在华为未来的技术蓝图中，UB将成为唯一的、贯穿各级的互联主干，而HCCS将作为前期技术积累融入并最终收敛到这一主干中。

NVlink

这个没啥好说，英伟达为继续使用演进
根据提供的搜索结果，NVLink技术自诞生至今的演进路线清晰展现了英伟达从构建高速GPU间互联到打造超大规模AI集群网络的雄心。其核心路径是从机内点对点互联演变为跨机箱的网络化超级互联。

以下是其主要的演进阶段与关键里程碑：

第一阶段：奠基与内部互联 (2016-2017)
这一阶段的核心目标是突破PCIe瓶颈，在单台服务器内实现GPU间的高带宽直接通信。

首发：NVLink 1.0 - 随Pascal架构（P100 GPU）推出。每块GPU配备4个端口，每个端口由8个速率为20 Gbps的通道组成，单端口双向带宽40 GB/s，单卡总带宽160 GB/s，在当时达到PCIe 3.0带宽的5-10倍。它实现了GPU间的点对点直接内存访问。1389
第二阶段：规模化与拥抱CPU (2017-2020)
目标从单个连接扩展到多GPU系统全互联，并开始将CPU纳入高速互联生态。

NVLink 2.0 / NVSwitch 1.0 - 随Volta架构（V100 GPU）推出。单卡端口数增至6个，单通道速率提升至25 Gbps，单卡总带宽翻倍至300 GB/s。关键的创新是引入了NVSwitch交换芯片（最初18端口），首次实现了8个GPU间的全连接（Full Mesh），并开始支持与IBM POWER CPU的缓存一致性连接。239
NVLink 3.0 / NVSwitch 2.0 - 随Ampere架构（A100 GPU）推出。单卡端口数大幅增至12个，采用更高速的50 Gbps通道（每端口4通道），总带宽再次翻倍至600 GB/s。NVSwitch升级至36端口，并支持通过背对背连接组建16卡全互联系统（如DGX A100）。269
第三阶段：迈向超级网络 (2022年至今)
技术定位从“内部互联”升级为可与InfiniBand竞争的独立网络设备，支撑千卡级AI集群。

NVLink 4.0 / NVSwitch 3.0 - 随Hopper架构（H100 GPU）推出。单卡端口数达18个，采用PAM4调制实现100 Gbps通道速率（每端口2通道），单卡总带宽高达900 GB/s。NVSwitch 3.0支持64个端口，并集成了用于集合通信优化的SHARP功能。更重要的是，NVLink Network开始支持通过OSFP光模块进行机箱间的连接，实现了“单一节点”概念的巨大扩展。12469
未来：NVLink 5.0及生态系统开放 - 根据路线图，下一代预计采用200 Gbps通道速率，带宽将继续提升。更重大的趋势是英伟达推出NVLink Fusion项目，计划通过IP授权方式，允许第三方厂商（如Intel, Arm, SiFive RISC-V）的CPU或其他加速器接入NVLink网络，旨在构建一个以NVLink为核心、更开放的异构计算生态。1710
演进规律总结
性能跃进：单通道速率按“20G→25G→50G→100G→200G(预计)”翻倍提升，同时通过增加单卡端口数（4→6→12→18→24预计）实现总带宽的指数级增长。79
架构变革：从点对点连接，到引入NVSwitch实现全互联，最终演变为支持光电混合的跨机箱网络。145
生态扩张：从专为NVIDIA GPU设计，到逐步开放生态，试图成为未来高性能计算和AI集群的统一互联标准。1011
总而言之，NVLink的演进路线清晰地反映了AI计算对互联带宽和规模的需求增长，其发展已超越了单纯的GPU互联技术，成为定义现代超大规模AI基础设施架构的关键基石。

PCIe

PCIe互联在高性能训练场景中的劣势
PCIe在算力卡互联中的劣势主要体现在带宽和延迟上，使其难以胜任大规模AI训练任务。在高性能计算场景，尤其是需要多卡紧密协同的大模型训练中，PCIe的共享总线架构与NVLink等专用互联技术存在本质差距。NVLink专为GPU间高速直连设计，提供高达数百GB/s的带宽和微秒级延迟，并支持全互联拓扑；而PCIe最初为外设互联设计，用于多卡通信时带宽有限且延迟较高。例如，RTX 4090集群通过PCIe 4.0互联时，有效P2P带宽仅为理论值的12.5%-18.75%，8卡分布式训练AI模型时通信延迟可达NVLink方案的3.6倍，导致GPU利用率暴跌和大量算力空转。因此，在追求极致效率的数据中心训练场景，纯PCIe互联的算力卡难以与配备NVLink的专业卡竞争。139

PCIe在推理、边缘及灵活部署场景中的优势
尽管在高性能训练中存在瓶颈，但PCIe凭借其通用性、灵活性和成熟的生态，在推理、边缘计算和企业级部署中仍有显著优势与前途。PCIe接口具有极强的通用兼容性，无需改造服务器架构即可便捷部署，大幅降低了AI算力导入的门槛与成本。这在推理、轻量级训练、工业自动化等场景中至关重要，因为此类任务对通信带宽的要求相对较低，更注重部署的灵活性与经济性。同时，PCIe提供灵活的链路宽度（×1到×16），带宽代际演进清晰（目前已至PCIe 5.0/6.0），能适配不同算力等级的需求。在汽车等新兴领域，PCIe的超低延迟、高可靠性和直接内存访问优势，使其成为实时性要求高的边缘互连方案的补充。因此，专注于推理市场或采用非GPU架构的AI加速卡，完全可以依赖PCIe获得成功。257

市场多元化与国产化带来的新兴机会
在全球算力市场多元化与供应链自主可控的趋势下，仅使用PCIe互联的算力卡正迎来新的发展机遇。随着美国对高端AI芯片的出口限制，中国市场加速推动国产算力发展。许多国产AI芯片企业，如平头哥、寒武纪、燧原科技等，其产品主要通过PCIe形态切入市场。这些芯片在性能上可能不及顶级国际产品，但凭借PCIe的通用接口，能快速适配现有服务器，满足企业级推理、工业计算等广泛需求。此外，PCIe交换芯片作为算力网络的神经枢纽，在国产化进程中地位关键，其发展支撑了全国一体化算力网的建设。这意味着，在特定市场区域和差异化应用场景中，纯PCIe互联的算力卡不仅具有前途，而且是实现供应链安全与成本控制的重要路径。6810

未来演进：CXL融合与专用交换芯片提升潜力
PCIe互联的未来前途与其技术演进紧密相关，尤其是通过与CXL协议的融合以及专用交换芯片的智能化发展，PCIe有望突破传统外设接口的局限。未来，PCIe加速卡将随异构计算架构普及和CXL协议成熟进入新发展阶段。CXL建立在PCIe物理层之上，支持缓存一致性与内存池化，这将使通过PCIe连接的加速卡从外设转变为对等计算单元，大幅降低数据搬运开销。同时，专为PCIe优化的交换芯片正朝着超低延迟、CXL融合及光电共封装方向发展，以解决大规模集群的内部通信瓶颈。这些演进将使PCIe互联不仅能继续服务边缘与推理市场，更有潜力参与更复杂的异构计算任务，保持其作为通用高速互连基石的长期价值。

AI专题十五：AI算力卡互联