AI专题十五:AI算力卡互联

hegangben
2026-04-16 / 0 评论 / 3 阅读 / 正在检测是否收录...

备注:未来主要是看Nvlink、UAlink、Unified Bus

在 AI 训练和推理中,单卡性能固然重要,但当模型规模、数据量持续膨胀时,模型参数到达几十亿甚至上千亿参数,单张 GPU 的显存与算力已无法独立承载训练、推理任务,多卡并行成为唯一选择。这时候,卡与卡之间的互联带宽、延迟、拓扑结构 就成了制约整体性能的关键瓶颈。

mo1dr3pb.png

(图源:GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站)

本文主要介绍节点内部的GPU互联,节点间的GPU互联涉及网络部分,后面开新篇详细讲解。

大模型训练时,模型的权重矩阵被切分到不同 GPU,每次前向/反向传播都要交换激活或梯度。这种通信量大但延迟敏感的场景,放在节点内更高效,因此单节点内,会经常有张量并行的场景。

这种高带宽、低延迟的互联需求,也催生了GPU互联技术的发展。

1、PCIe

最初,大家都使用PCIe 进行互联,GPU 插卡通过 PCIe 接入主板,生态成熟、通用性强、设备即插即用。

mo1drk8c.png

(图源:《电子发烧友》)

但随着模型规模不断增大,PCIe 的带宽逐渐显得不足。

以某PCIE GPU服务器为例,每个CPU下连接一个PCIe Switch芯片,每个PCIe Switch芯片连接5张GPU。GPU0-GPU3、GPU4-GPU7的两组GPU,内部可以通过PCIe switch通信,但如果需要跨组通信,只能通过CPU之间UPI来进行(GPU 1 -> PCIe 总线 -> CPU -> PCIe 总线 -> GPU 8)。
mo1ds0g3.png

(图源:元脑®服务器 NF5468G7 系列技术白皮书)

不过,即使是最新的PCIe 技术,提供的带宽也有限。PCIe 4.0 x16 单向带宽约 32 GB/s,PCIe 5.0 64 GB/s。相比 GPU 内部早已上TB/s的显存带宽,这显然成了“木桶效应”中的短板,成了拉低通信效率的瓶颈。

为了解决这一瓶颈,GPU 厂商开始探索专门的GPU互联通道。

2、英伟达NVLink

NVLink首次作为GPU互联技术随NVIDIA P100 GPU推出,此后与每一代新的NVIDIA GPU架构同步发展。从最初的简单GPU-GPU连接,到如今的全系统互联解决方案,NVLink已经成为高性能GPU互联的代名词。

2016年,NVLink 1.0 与 P100 GPU 一同发布(顺便说一句,Tesla P100也是全球首个支持高带宽 HBM2 内存技术的 GPU 架构),一张 GPU 支持最多 4 条 NVLink,每条链路双带宽约 40 GB/s ,整个芯片的总双向带宽达到了 160GB/s,大大突破了PCIe 3.0 带宽限制(PCIe 3.0 x16 双向仅 ~32 GB/s)。

mo1dsiji.png

2017 年,NVLink 2.0 随 V100 (Volta 架构) 推出,每条链路双向带宽提升至 50 GB/s,单卡支持 6 条链路,总带宽最高 300 GB/s。

mo1dsriv.png

NVLink2.0 技术虽然大大提高了带宽,但是单服务器中 8 个 GPU仍然无法做到全连接,为解决该问题,NVIDIA 在V100发布同年,发布了 NVSwitch,实现了 NVLink 的全连接。

GPU所有的端口都用于与SW互联,数据在所有NVLink通道上交错传输,支持任意两块 GPU 之间的全带宽,NVLinks 的总带宽未超,对单个 GPU 的传输就不会阻塞。

mo1dt1sb.png
mo1dt9s4.png

到如今,NVLink已经发展到了第五代,几乎每一代的带宽都是翻倍增长,最新的第五代性能已经高达1.8T/s。第五代NVIDIA NVSwitch更是配备144 个NVLink 端口,无阻塞交换能力达到了14.4 TB/s。

备注:NVLink 和 NVSwitch 是英伟达(NVIDIA)为解决高性能计算和人工智能(AI)场景下多 GPU 间通信瓶颈而设计的两项核心技术。它们虽然紧密相关,但角色和功能有本质区别。下面从基础概念、功能定位、技术演进、工作原理和实际应用等方面进行详细分析。
mo1du5px.png
NVLink:点对点连接

最初设计用于替代带宽受限的 PCIe 接口。
支持两个设备(如 GPU-GPU 或 GPU-CPU)之间直接通信,提供远高于 PCIe 的带宽和更低的延迟。
例如:两张 A100 GPU 通过 NVLink 直连,可实现高达 600 GB/s 的双向带宽(A100 SXM4)。
NVSwitch:全互连拓扑构建者

解决多 GPU 系统中“无法全互联”的问题。
在一个服务器内(如 DGX 系统),NVSwitch 芯片允许多个 GPU(如 8 个或 16 个)通过 NVLink 连接到同一个交换矩阵上,实现“每个 GPU 都能直接与其它所有 GPU 通信”。
消除了传统 PCIe Switch 或树状拓扑中的通信瓶颈。

mo1dwetw.png
mo1dwjd5.png
mo1dwnju.png

3、AMD Infinity Fabric

AMD 2017年随Ryzen/EPYC 首次提出Infinity Fabric,是一种专有的系统互联架构,用于促进所有连接组件之间的数据和控制传输。

目前,Infinity Fabric已经进入了第四代,每条 Infinity Fabric 链路支持高达 32 Gbps 的传输速率,提供 128 GB/s 的双向带宽(跟PCIe 5.0很像呢)。 主要为环形或者网状拓扑。

mo1dyc2n.png

4、国产厂商互联技术

国产芯片厂商的资料一般不公开,以下内容也是基于互联网资料整理的。

华为昇腾HCCS

昇腾 910B(尤其是 910B2)使用的是 HCCS 高速缓存一致性系统,相当于华为版本的 NVLink,专门用于芯片间高速通信与缓存一致性,卡间互连带宽为约 392 GB/s。
mo1e2vi0.png

mo1e2zui.png

华为unified bus

衢定义为面向超节点(SuperPoD) 的统一互联协议,旨在将 I/O、内存访问、异构计算单元(CPU/NPU/GPU等)之间的通信融合到同一技术体系中,实现高性能、高协同、高弹性的计算基础设施。

mo1e8vvd.png

寒武纪 MLU-Link™多芯互联技术

(公开资料比较老)MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。
mo1e9vex.png

沐曦 MetaXLink

采用自研MetaXLink高速接口,支持单机8卡全互联,显著提升多卡协同效率
mo1ea46k.png

壁仞BLink
原创BLink™高速GPU互连技术,单卡互连带宽最高达448 GB/s,并支持单节点8卡全互连
mo1eaft2.png

燧原 GCU-LARE

GCU-LARE全域互联技术是燧原专为AI训练集群研发的互联技术,提供双向300 GB/s互联带宽,支持数千张云燧CloudBlazer加速卡互联,可实现优异的线性加速比。
mo1eaojw.png

Gen-Z

Gen-Z 其实是一堆行业巨头不满意 Intel 技术垄断和演进的情况下,合作搞出的新型高速互连标准,AMD、ARM、博通、Cray、戴尔 EMC、HPE、华为、IBM、联想、Mellanox (NVIDIA)、美光、红帽、三星、希捷、SK 海力士、西数、赛灵思等等都在其中,CPU,模组,网络,服务器,存储,连接器,操作系统,硬盘,FPGA的龙头老大都已经齐聚一堂,好像也看到无处不在的大陆连接器线缆龙头大哥,立迅精密.

Gen-Z架构专注于提供高效率、高带宽和低延迟.

Gen-Z 面向数据中心和服务器市场,是一种以内存为中心的总线结构式协议,具备高带宽、低延迟、先进工作负载、良好兼容性和经济性等优点.

通过利用经过验证的装载/存储模型实现高效率。简化了Gen-Z硬件接口层,从而最大限度地减少了对软件层的需求。消除这种复杂性、开销和诱导系统延迟可以显着提高系统性能。

高带宽以两种方式实现。Gen-Z支持非对称通信路径,这意味着可以将更多通道专用于读取路径而不是写入路径,反之亦然。此外,Gen-Z支持多种信令速率,包括16,25,32,56和112 GT / s,总而言之,这些功能将使Gen-Z能够跟上行业不断增长的速度需求,同时还允许将Gen-Z通信路径调整为特定的工作负载流量模式.

通过减少软件堆栈来实现低延迟,与传统的服务器存储和大量分层的网络堆栈不同,Gen-Z采用轻量级软件接口,直接对硬件进行内存读写操作.
Gen-Z 1.0 标准采用 PCIe 物理层和修改的 IEEE 802.3 以太网电气层标准,但在物理层上只定义了 PCIe 4.0,因此每通道速度最快只有 25GT/s,要想充分利用标准的全部性能,也必须满足 PHY 物理层面的所有规定.

Gen-Z 1.1 则引入了 PCIe 5.0,每通道速度提高到 32GT/s,同时在比较宽松的技术限制下,就可以实现 Gen-Z-E-PAM4-50G-Fabric 链接,原始数据率 53.125GT/s,一切都以达到更高的传输速度、更低的延迟为目标,毕竟这也是该标准的初衷

目前主流的AI算力芯片板卡(如NVIDIA、AMD、Intel的GPU/AI加速卡)均未采用Gen-Z接口。它们主要使用PCIe和厂商私有的高速互联协议(如NVLink、Infinity Fabric)。

这背后是技术路线、生态锁定和成本效益等多重因素共同作用的结果。以下是详细分析:

一、当前主流AI算力卡的互联接口
PCI Express:行业标准与“基线”
作用:这是所有AI加速卡与主机CPU、系统内存及其他设备通信的标准、必需的接口。目前主流是PCIe 5.0,正在向PCIe 6.0过渡。
原因:PCIe是服务器和PC行业的通用标准,提供了必不可少的系统兼容性、枚举和基础I/O功能。任何加速卡都必须通过PCIe与主机连接。
厂商私有高速互联协议:性能的“核心”
NVIDIA NVLink:用于H100、B200等卡间的直接高速互联。其带宽远超PCIe(例如,H100的NVLink 4.0带宽达900GB/s),是构建多卡统一内存域、实现高效模型并行(如张量并行)的关键。它通过SXM形态或NVLink Bridge实现。
AMD Infinity Fabric:在AMD Instinct MI300系列等加速卡上,用于GPU to GPU的直接高速连接,功能与NVLink类似,是AMD生态内构建多卡系统的核心。
为什么用私有协议? 因为这些协议由芯片设计方深度定制,可以与自家GPU的架构(如内存控制器、缓存一致性协议)实现最优协同,达到极低的延迟和极高的带宽,这是通用标准短期内难以匹敌的。
二、为什么Gen-Z未被AI算力卡采用?
Gen-Z是一种以内存语义为中心的开放互连标准,旨在实现CPU、内存、加速器和存储之间的高效数据共享。它未能成为AI算力卡主流接口的主要原因如下:

生态锁定与先发优势
NVIDIA的统治地位:其NVLink + CUDA 生态已成为AI训练和高端推理的事实标准。客户购买H100不仅买硬件,更是购买整个软件栈和优化过的多卡通信库(如NCCL)。切换到Gen-Z意味着打破这个封闭但高效的生态,对NVIDIA和客户都无益处。
AMD的路径依赖:AMD同样选择了发展自己的Infinity Fabric,并在其CPU(EPYC)和GPU(Instinct)之间通过 Infinity Architecture 进行深度集成,形成了自己的协同生态。
技术定位与需求错配
Gen-Z的核心优势在于内存池化和解耦,让各种设备可以像访问本地内存一样访问共享内存池。这对于某些数据中心架构(如分解式存储、内存池)很有吸引力。
AI算力卡的核心需求是极致的点对点通信带宽和低延迟,以支持大规模模型并行训练。NVLink/Infinity Fabric作为紧耦合的专用互联,在为特定芯片对优化这方面,比通用的Gen-Z更有优势。
成本与复杂性
在主芯片(GPU)上集成额外的Gen-Z控制器会增加芯片面积、功耗和设计复杂性。
在板卡和主板层面,需要增加Gen-Z所需的物理接口和线缆,这会增加系统成本和设计难度,而性能收益对于AI工作负载而言并不明确。
标准竞争的结局
近年来,另一个标准 CXL 在内存语义互连的竞争中逐渐占据了上风,得到了Intel、AMD、ARM及整个服务器生态链的更广泛支持。CXL基于PCIe物理层,兼容性更好,发展路径更清晰。行业焦点已从Gen-Z转向了CXL。
三、未来趋势:CXL与UCIe
虽然Gen-Z未成为主流,但解决内存墙和异构计算通信问题的需求依然存在,新的接口标准正在崛起:

CXL:目前最受瞩目的行业标准。它运行在PCIe物理层之上,专注于实现缓存一致性的内存共享。未来,AI加速卡可能会集成CXL接口,目的不是为了卡间直连,而是为了让GPU能够更高效、更一致地访问CPU内存甚至池化内存,从而突破单卡显存容量限制。
UCIe:这是一个芯片级的裸片互连标准。未来,AI算力芯片可能通过UCIe在封装内部直接与其他芯片(如CPU、专用加速器、HBM)连接,实现比板级互联更高的带宽和能效。这可以看作是“更近一步”的NVLink

5.桥接器、SXM、OAM : 高速互联GPU的硬件实现

这么多GPU高速互联的技术,最终都要落到实际的服务器硬件实现。

第一种就是桥接器,最开始是NVIDIA 专为 PCIe GPU 而设计的物理桥接设备。它能让两个 GPU 建立直接高速连接,绕开主板的 PCIe 主干,总带宽远高于单纯依赖 PCIe 通道的多卡互联方式。
mo1eaxv4.png
mo1eb175.png
后面很多其他厂商也学过去了。桥接器的好处就是,只用PCIe 服务器,就能获得高速互联,但是相对而言限制比较大,大部分可以做到2卡高速互联。

要想做到单节点所有GPU全互联,就需要改变服务器的硬件形态了。

以H100为例,板卡有两种形态,一种是PCIe板,一种是SXM板。

SXM板集成了 H100 GPU 和 HBM3 内存堆栈,并支持第四代 NVLink 以及 PCIe Gen 5 连接,提供最优的应用性能。
mo1eb958.png
这种SXM卡用于英伟达的DGX/HGX平台,就是我们常说的GPU模组,这个模组里面集成了GPU、NVLink、NVIDIA 网络以及全面优化的 AI 和高性能计算 (HPC) 软件堆栈的全部功能。
mo1ebg3a.png

各家服务器厂商就根据英伟达的这个模组来开发服务器的硬件平台,大部分就是专供英伟达使用了。

但是英伟达的模组都是自己私有化的,其他GPU厂商怎么办呢?

2019年OCP全球峰会期间,百度宣布与Facebook、微软展开合作,联合制定OAM (OCP Accelerator Module)标准。该标准用于指导AI硬件加速模块和系统设计。

mo1ebop4.png

2019年在美国丹佛举行的SC19全球超算大会上,浪潮正式发布全新的AI开放加速系统MX1,可在一个AI服务器支持多种符合OAM(OCP Accelerator Module)规范的AI芯片,这也是全球首个可支持多家不同型号的AI芯片直接更换的AI开放加速系统。
mo1ebwgp.png

OAM标准定义了AI加速器的统一接口,支持ASIC、GPU和FPGA等多种架构,并在物理形态、电源、连接器、引脚定义和系统架构方面提供创新设计。
mo1ec4v2.png
mo1ec8pa.png

6. 未来演进

UAlink

UALink 是 Alibaba、AMD、Apple、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta、Microsoft和Synopsys 发起。国内的一些AI 芯片厂商大概率会放弃自研的link 方式,切换到UAlink,因为实力和市场不容许。

通用的UAlink

Ultra Accelerator Link™ (UALink™)联盟于2024年10月注册成立,是致力于制定UALink规范的开放行业标准组织。该规范作为高速、可扩展的加速器互联技术,可提升下一代AI和高性能计算集群性能。联盟由行业领军企业组成的董事会领导,包括:Alibaba、AMD、Apple、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta、Microsoft和Synopsys。联盟制定的技术规范为新兴AI应用模式实现突破性性能提供便利,同时支持构建数据中心加速器的开放生态系统。

UALink通用规范2.0
为UALink技术引入网内计算,促进加速器之间的计算和通信。
降低延迟、节省带宽,提升UALink系统在复杂和多工作负载环境下的AI解决方案分布式训练和推理的扩展效率。
UALink 200G数据链路和物理层(DL/PL)规范2.0
将DL/PL规范从UALink通用规范中拆分,使UALink能够根据行业对新型物理层和速率的需求快速迭代,无需修改其他规范。
引入UALink作为具备集中控制平面和管理平面的系统。
采用gNMI、Yang、SAI和Redfish等标准化协议、模型和应用程序接口。
定义将UALink技术集成至基于芯粒的片上系统所需的关键信息,包括接口、外形规格、流量控制和芯粒管理标准化。
完全兼容UCIe® 3.0规范,简化与现有芯粒生态系统的集成。
UALink可管理性规范1.0
UALink芯粒规范1.0
随着UALink技术持续发展,联盟计划推出互操作性与合规项目,以支撑稳健的多厂商生态系统。欢迎有意推动UALink技术发展并参与相关项目建设的企业加入联盟,共同制定未来UALink规范。

mo29i4j7.png

AMD 是为放弃Infinity Fabric 还是全面拥抱UAlink,AMD有这个实力。根据当前公开的技术信息和行业趋势,AMD在未来很可能会采取“双轨制”策略,即继续发展和使用Infinity Fabric作为其自家产品内部的核心互联技术,同时积极参与并推广UAlink作为跨厂商、开放生态的外部互联标准。两者并非替代关系,而是互补共存。

Infinity Fabric将继续作为AMD产品架构基石
Infinity Fabric是AMD自Zen架构以来为其处理器和加速器设计的专有、高性能内部互连总线。它深度集成于AMD的芯片设计中,用于连接CPU核心、CCD、IO芯片以及GPU,是实现其模块化设计和高性能的关键。放弃这一成熟且不断演进的技术(如发展到IFOP 3.0)对AMD而言既不现实也无必要。它将继续在EPYC CPU与Instinct GPU的紧耦合计算单元(如MI300X的8卡互联)中发挥核心作用。410

AMD积极主导UAlink以构建开放生态对抗NVLink
UAlink的定位与Infinity Fabric不同。它是由AMD、英特尔、谷歌、微软等巨头联盟推动的开放式加速器互联行业标准,旨在为AI服务器集群中的任意品牌加速器(AMD、Intel等)提供高速、低延迟的互连方案,直接目标是打破英伟达NVLink的封闭生态壁垒。AMD是UAlink联盟的核心发起者和主推者之一,其动机在于通过开放标准吸引更多客户和合作伙伴,扩大其AI加速器的市场渗透率。因此,AMD必将大力支持并推广UAlink。2612

两种技术将并存于不同场景
未来AMD的产品路线图很可能呈现以下分工:

内部紧密集成场景:在单机或机架内纯AMD硬件(如EPYC + Instinct MI系列GPU)构成的计算单元中,将继续优化并使用Infinity Fabric以实现最高效的內部通信。这是其性能优势所在。
外部异构集群场景:在需要大规模扩展、或与其他厂商硬件(如英特尔GPU、第三方交换机)混合组网的AI数据中心集群中,AMD的加速器将支持并首选UAlink标准进行互联。这符合其开放生态战略。AMD已明确表示,其下一代机架级解决方案“Helios”将同时支持Infinity Fabric和UAlink。58
结论:互补而非切换
AMD不会“全面切换”到UAlink而放弃Infinity Fabric。相反,它将:

对内巩固:持续投资Infinity Fabric,作为其芯片内部及自家产品组合间的高性能私有通道。
对外开放:全力推动UAlink成为行业事实标准,确保其AI硬件能在多供应商环境中无缝互联,增强市场竞争力。
这种策略使AMD既能保持核心技术优势,又能参与定义开放生态,是最符合其商业和技术利益的路径。对于用户而言,未来的AMDAI解决方案将根据部署环境(纯AMD栈或异构集群)灵活启用这两种互联技术。

英特尔将采取“两手准备、优先自研、拥抱开放”的战略,最终会以自研技术为核心,同时积极兼容并影响开放标准(如UALink)。

一、核心判断:英特尔的选择逻辑
作为追赶者,必须打造差异化核心竞争力 英特尔深知,若只在通用GPU领域跟随英伟达,难以超越。其真正的差异化路线是 “XPU”异构计算,即将CPU、GPU、AI专用加速器(如Gaudi)、FPGA等通过高速互连集成。为此,自研的互联技术是其异构战略的“骨架”和核心技术壁垒,不可能完全放弃。

生态建设的现实需求:必须加入开放阵营 作为市场挑战者,英特尔没有英伟达CUDA生态那样的统治力。要吸引客户(尤其是微软、谷歌等云巨头),就必须证明其产品能与现有基础设施(通常包含多厂商硬件)良好互通。加入并支持UALink这样的开放标准,是降低客户采用门槛、融入多云生态的必经之路。

对于英特尔而言,自研互联技术(Xe Link, Foveros)与拥抱开放标准(UALink, CXL)不是非此即彼的选择,而是同时进行的双重战略:

对内/底层:用顶尖的自研封装和互连技术(Foveros/EMIB/Xe Link)来保证其AI芯片产品的绝对性能和能效竞争力,这是与英伟达H100、AMD MI300系列正面竞争的硬实力。
对外/上层:积极参与并领导CXL、UALink等开放标准,打造开放的、以CPU和通用标准为中心的异构计算生态。这既是团结盟友对抗英伟达的需要,也是其作为系统平台厂商和潜在代工厂商的长期利益所在。

Unified Bus

UB协议在设计上旨在分层支持这四种互联场景,但其在不同层级的物理实现和性能目标有所不同。
mo2b2ui9.png

关于UB是否会全面替换华为原有的HCCS(High-Performance Computing and Communication Switching) 协议,答案是:UB是HCCS在架构上的演进和升级,预计将逐步成为华为未来全场景互联的单一协议栈,但替代过程是渐进的。

技术演进关系:
HCCS的定位:HCCS是华为早期自研的高速片上互联网络协议,主要用于鲲鹏CPU多核之间以及升腾NPU之间的高速互联18。它类似于AMD的Infinity Fabric或Intel的UPI,实现了多核间的一致性互联,为华为突破单芯片性能瓶颈提供了基础。
UB的超越:UB不仅仅是芯片内或板级互联协议,其愿景更宏大——它旨在成为从芯片内到数据中心级别的统一互联架构。UB在协议层抽象了物理介质,可以运行在从封装内裸片链路到长距离光缆的不同物理层上10。
替代的必然性与路径:
架构代差:UB提供的“对等架构”和“统一内存空间”理念,比HCCS所服务的主从架构更先进,能更好地支撑超大规模智算集群10。
产品路线图驱动:华为已经发布了基于UB的Atlas 950/960 SuperPoD超节点和TaiShan 950 SuperPoD通算超节点,这些新一代产品的核心互联已明确采用UB协议2711。这表明在新一代硬件平台上,UB已成为首选。
生态统一需求:华为推行“硬件开放、软件开源”策略,一个统一的互联协议栈(UB)有利于降低生态伙伴的开发复杂度和成本712。
过渡期安排:
短期并存:在现有已部署的基于HCCS的硬件(如某些型号的鲲鹏服务器、升腾910等)生命周期内,HCCS仍将被支持。
长期收敛:在2026年及之后的新一代产品(如升腾950、鲲鹏950后续型号)和超节点集群中,UB将全面成为互联基础,HCCS的角色将逐渐弱化或被整合进UB协议栈中311。
结论
华为Unified Bus是一个雄心勃勃的跨层级统一互联协议,旨在用一套架构覆盖从芯片到数据中心的全场景。它将不仅是HCCS的功能性替代,更是一次互联范式的升级,以适应“数据中心即计算机”的未来算力需求。因此,在华为未来的技术蓝图中,UB将成为唯一的、贯穿各级的互联主干,而HCCS将作为前期技术积累融入并最终收敛到这一主干中。

NVlink

这个没啥好说,英伟达为继续使用演进
根据提供的搜索结果,NVLink技术自诞生至今的演进路线清晰展现了英伟达从构建高速GPU间互联到打造超大规模AI集群网络的雄心。其核心路径是从机内点对点互联演变为跨机箱的网络化超级互联。

以下是其主要的演进阶段与关键里程碑:

第一阶段:奠基与内部互联 (2016-2017)
这一阶段的核心目标是突破PCIe瓶颈,在单台服务器内实现GPU间的高带宽直接通信。

首发:NVLink 1.0 - 随Pascal架构(P100 GPU)推出。每块GPU配备4个端口,每个端口由8个速率为20 Gbps的通道组成,单端口双向带宽40 GB/s,单卡总带宽160 GB/s,在当时达到PCIe 3.0带宽的5-10倍。它实现了GPU间的点对点直接内存访问。1389
第二阶段:规模化与拥抱CPU (2017-2020)
目标从单个连接扩展到多GPU系统全互联,并开始将CPU纳入高速互联生态。

NVLink 2.0 / NVSwitch 1.0 - 随Volta架构(V100 GPU)推出。单卡端口数增至6个,单通道速率提升至25 Gbps,单卡总带宽翻倍至300 GB/s。关键的创新是引入了NVSwitch交换芯片(最初18端口),首次实现了8个GPU间的全连接(Full Mesh),并开始支持与IBM POWER CPU的缓存一致性连接。239
NVLink 3.0 / NVSwitch 2.0 - 随Ampere架构(A100 GPU)推出。单卡端口数大幅增至12个,采用更高速的50 Gbps通道(每端口4通道),总带宽再次翻倍至600 GB/s。NVSwitch升级至36端口,并支持通过背对背连接组建16卡全互联系统(如DGX A100)。269
第三阶段:迈向超级网络 (2022年至今)
技术定位从“内部互联”升级为可与InfiniBand竞争的独立网络设备,支撑千卡级AI集群。

NVLink 4.0 / NVSwitch 3.0 - 随Hopper架构(H100 GPU)推出。单卡端口数达18个,采用PAM4调制实现100 Gbps通道速率(每端口2通道),单卡总带宽高达900 GB/s。NVSwitch 3.0支持64个端口,并集成了用于集合通信优化的SHARP功能。更重要的是,NVLink Network开始支持通过OSFP光模块进行机箱间的连接,实现了“单一节点”概念的巨大扩展。12469
未来:NVLink 5.0及生态系统开放 - 根据路线图,下一代预计采用200 Gbps通道速率,带宽将继续提升。更重大的趋势是英伟达推出NVLink Fusion项目,计划通过IP授权方式,允许第三方厂商(如Intel, Arm, SiFive RISC-V)的CPU或其他加速器接入NVLink网络,旨在构建一个以NVLink为核心、更开放的异构计算生态。1710
演进规律总结
性能跃进:单通道速率按“20G→25G→50G→100G→200G(预计)”翻倍提升,同时通过增加单卡端口数(4→6→12→18→24预计)实现总带宽的指数级增长。79
架构变革:从点对点连接,到引入NVSwitch实现全互联,最终演变为支持光电混合的跨机箱网络。145
生态扩张:从专为NVIDIA GPU设计,到逐步开放生态,试图成为未来高性能计算和AI集群的统一互联标准。1011
总而言之,NVLink的演进路线清晰地反映了AI计算对互联带宽和规模的需求增长,其发展已超越了单纯的GPU互联技术,成为定义现代超大规模AI基础设施架构的关键基石。

PCIe

PCIe互联在高性能训练场景中的劣势
PCIe在算力卡互联中的劣势主要体现在带宽和延迟上,使其难以胜任大规模AI训练任务。在高性能计算场景,尤其是需要多卡紧密协同的大模型训练中,PCIe的共享总线架构与NVLink等专用互联技术存在本质差距。NVLink专为GPU间高速直连设计,提供高达数百GB/s的带宽和微秒级延迟,并支持全互联拓扑;而PCIe最初为外设互联设计,用于多卡通信时带宽有限且延迟较高。例如,RTX 4090集群通过PCIe 4.0互联时,有效P2P带宽仅为理论值的12.5%-18.75%,8卡分布式训练AI模型时通信延迟可达NVLink方案的3.6倍,导致GPU利用率暴跌和大量算力空转。因此,在追求极致效率的数据中心训练场景,纯PCIe互联的算力卡难以与配备NVLink的专业卡竞争。139

PCIe在推理、边缘及灵活部署场景中的优势
尽管在高性能训练中存在瓶颈,但PCIe凭借其通用性、灵活性和成熟的生态,在推理、边缘计算和企业级部署中仍有显著优势与前途。PCIe接口具有极强的通用兼容性,无需改造服务器架构即可便捷部署,大幅降低了AI算力导入的门槛与成本。这在推理、轻量级训练、工业自动化等场景中至关重要,因为此类任务对通信带宽的要求相对较低,更注重部署的灵活性与经济性。同时,PCIe提供灵活的链路宽度(×1到×16),带宽代际演进清晰(目前已至PCIe 5.0/6.0),能适配不同算力等级的需求。在汽车等新兴领域,PCIe的超低延迟、高可靠性和直接内存访问优势,使其成为实时性要求高的边缘互连方案的补充。因此,专注于推理市场或采用非GPU架构的AI加速卡,完全可以依赖PCIe获得成功。257

市场多元化与国产化带来的新兴机会
在全球算力市场多元化与供应链自主可控的趋势下,仅使用PCIe互联的算力卡正迎来新的发展机遇。随着美国对高端AI芯片的出口限制,中国市场加速推动国产算力发展。许多国产AI芯片企业,如平头哥、寒武纪、燧原科技等,其产品主要通过PCIe形态切入市场。这些芯片在性能上可能不及顶级国际产品,但凭借PCIe的通用接口,能快速适配现有服务器,满足企业级推理、工业计算等广泛需求。此外,PCIe交换芯片作为算力网络的神经枢纽,在国产化进程中地位关键,其发展支撑了全国一体化算力网的建设。这意味着,在特定市场区域和差异化应用场景中,纯PCIe互联的算力卡不仅具有前途,而且是实现供应链安全与成本控制的重要路径。6810

未来演进:CXL融合与专用交换芯片提升潜力
PCIe互联的未来前途与其技术演进紧密相关,尤其是通过与CXL协议的融合以及专用交换芯片的智能化发展,PCIe有望突破传统外设接口的局限。未来,PCIe加速卡将随异构计算架构普及和CXL协议成熟进入新发展阶段。CXL建立在PCIe物理层之上,支持缓存一致性与内存池化,这将使通过PCIe连接的加速卡从外设转变为对等计算单元,大幅降低数据搬运开销。同时,专为PCIe优化的交换芯片正朝着超低延迟、CXL融合及光电共封装方向发展,以解决大规模集群的内部通信瓶颈。这些演进将使PCIe互联不仅能继续服务边缘与推理市场,更有潜力参与更复杂的异构计算任务,保持其作为通用高速互连基石的长期价值。

0

评论 (0)

取消