NVLink et NVSwitch : quand est-ce important, et pourquoi généralement pas pour la gamme Kentino

Une question qui revient souvent : un client qui dimensionne un serveur GPU 4× ou 8× voit les arguments marketing de NVIDIA concernant la bande passante NVLink (en téraoctets par seconde) et demande si la configuration Kentino « intègre NVLink ». La réponse est non : aucune de nos configurations ne l’intègre, et pour les charges de travail réelles du client, cela convient parfaitement. Cet article explique pourquoi.

NVLink impressionne véritablement en haut de gamme, mais est absent partout ailleurs. Le marketing manque de clarté, ce qui conduit les acheteurs soit à surpayer une technologie inutile, soit à sous-dimensionner leur équipement en pensant que PCIe représente une régression fonctionnelle généralisée. Or, aucune de ces deux affirmations n'est vraie. La distinction est nette et précise.

Qu'est-ce que NVLink réellement ?

NVLink est une interconnexion point à point à haut débit entre GPU qui contourne le bus PCIe de l'hôte. Deux GPU connectés par NVLink transfèrent directement les tenseurs via cette liaison, sans passer par la mémoire du processeur ni interagir avec les autres éléments du bus PCIe. Voilà en résumé le principe.

L'avantage en termes de bande passante par rapport au PCIe est considérable. Le PCIe Gen5 x16 — la limite actuelle pour un port destiné aux applications grand public ou aux stations de travail — offre environ 64 Go/s dans chaque sens, soit 128 Go/s au total. NVLink 5 sur les cartes mères B200 et GB200 offre un débit total de 1.8 To/s par GPU, soit environ 14 fois celui d'un port PCIe Gen5 x16.

Cette comparaison est trompeuse dès le départ, car les GPU équipés de NVLink 5 ne sont pas des GPU utilisant PCIe Gen5 x16 comme interface principale. NVLink est présent sur les modèles destinés aux centres de données (A100, H100, H200, B200, GB200) ; PCIe est la seule interface disponible sur les modèles grand public et stations de travail (4090, 5090, RTX Pro 6000 Blackwell, L40, L4). En pratique, opposer « NVLink contre PCIe » revient à comparer « la gamme H100 aux autres ».

Aperçu des générations NVLink

Génération GPU Liens par GPU Agrégat par GPU Année
NVLink 2 V100 (Volta) 6 300 GB / s 2017
NVLink 3 A100 (Ampère) 12 600 GB / s 2020
NVLink 4 H100 / H200 (Trompette) 18 900 GB / s 2022
NVLink 5 B200 / GB200 (Blackwell DC) 18 1.8 TB / s 2024

Le nombre de liaisons est passé de la génération 2 à la génération 4, puis la bande passante par liaison a doublé entre la génération 4 et la génération 5 (de 50 Go/s à 100 Go/s). C'est pourquoi NVLink 5 apparaît comme une avancée majeure : et c'en est une.

PCIe dans une configuration Kentino :

Standard Par direction x16 Agrégat x16
PCIe Gen4x16 32 GB / s 64 GB / s
PCIe Gen5x16 64 GB / s 128 GB / s

Dans le pire des cas (Gen4), PCIe représente environ 1/14 de NVLink 4. Dans le meilleur des cas (Gen5), PCIe représente environ 1/14 de NVLink 5. Ce ratio est à peu près constant de par la conception de NVIDIA.

La vérité, c'est que la gamme Kentino ne propose pas de NVLink.

GPU Facteur de forme NVLink ?
RTX 4090 PCIe Non
RTX 5090 PCIe Non
RTX Pro 6000 Blackwell (WS/Server/Max-Q) PCIe Non
L40 / L40S PCIe Non
L4 PCIe Non
Intel Arc Pro B70 PCIe n/a

NVIDIA a supprimé l'interface NVLink des cartes GeForce grand public à partir d'Ada Lovelace. La 3090 était la dernière carte grand public à disposer d'un pont fonctionnel ; la 4090 l'a abandonnée et la 5090 en est totalement dépourvue. La raison invoquée était que « les utilisateurs souhaitent de la bande passante au sein d'un seul GPU, et non entre deux », ce qui coïncidait opportunément avec la formation de clients payant le prix fort pour la bande passante inter-GPU.

Le cas intéressant est celui de la RTX Pro 6000 Blackwell : une carte graphique de 96 Go pour stations de travail et serveurs, basée sur la même puce Blackwell que la B200, le choix évident pour une mémoire GPU performante sans passer par la B200. Elle est également dépourvue de NVLink, que ce soit sur les versions station de travail, serveur ou Max-Q. Aucun connecteur de pont n'est présent sur le circuit imprimé. Les fiches techniques de NVIDIA indiquent que NVLink n'est pas pris en charge sur les trois références.

Il s'agit d'une segmentation délibérée. NVLink implique de passer aux modèles H100, H200, B200 ou GB200 — format SXM, carte mère HGX, châssis et système de refroidissement différents, ce qui représente une allocation que Kentino ne propose pas. Si vous avez réellement besoin de NVLink, veuillez contacter un fournisseur de systèmes HGX.

Ce que vous perdez sans NVLink

La pénalité se manifeste dans deux schémas de charge de travail spécifiques :

  1. Parallélisme tensoriel entre GPU. Lorsqu'un modèle est trop volumineux pour un seul GPU et que la matrice de poids de chaque couche est répartie entre les cartes, chaque couche de transformation nécessite un AllReduce sur l'ensemble des partitions. Or, AllReduce est gourmand en bande passante et sensible à la latence. Le PCIe constitue le facteur limitant.
  2. Entraînement distribué avec synchronisation de gradient fine. Les méthodes d'entraînement DDP, FSDP et de type Megatron effectuent une réduction du gradient (AllReduces) à chaque étape. Plus le temps de calcul par étape est faible et plus le modèle est grand, plus l'interconnexion représente une part importante du temps d'exécution.

Tout le reste (inférence mono-GPU, parallélisme de pipeline, parallélisme de données, plongements lexicaux, inférence visuelle, reconnaissance automatique de la parole, synthèse vocale, génération d'images de diffusion, optimisation d'un modèle tenant sur un seul GPU) fonctionne parfaitement sur PCIe. NVLink est inutile.

Échelle TP mesurée pour un LLM de classe 70B à INT4/INT8, à partir des benchmarks 3090/4090/L40S publiés :

Configuration Mise à l'échelle TP Remarques
2× GPU, NVLink (3090 + pont) ~ 0.90–0.95 Quasi-linéaire
2× GPU, PCIe Gen4 ~ 0.60–0.70 Réduction significative des pertes
2× GPU, PCIe Gen5 ~ 0.65–0.75 Mieux, mais toujours un goulot d'étranglement.
4× GPU, PCIe Gen5 ~ 0.50–0.65 Tous les coûts de réduction augmentent
8× GPU, PCIe Gen5 ~ 0.40–0.55 La TP devient douloureuse

Il s'agit d'estimations, et non de promesses : les valeurs exactes dépendent du modèle, de la taille des lots, de la longueur des séquences, de la quantification, de la topologie NUMA et de l'emplacement des slots. La tendance est bien réelle : le parallélisme tensoriel PCIe a une complexité sous-linéaire et la pénalité augmente avec le nombre de GPU. C'est pourquoi la documentation de vLLM recommande le parallélisme pipeline plutôt que le parallélisme tensoriel sur les systèmes PCIe de plus de deux GPU.

Solution pratique : conserver le modèle sur un seul GPU

Un fait souvent négligé concernant le marché actuel des GPU : une RTX Pro 6000 Blackwell dispose de 96 Go de VRAM sur une seule carte, soit suffisamment pour gérer un modèle de 70 octets en INT4 ou INT8 sur un seul GPU, avec de l’espace disponible dans le cache KV. Si vous évitez de répartir un modèle sur plusieurs GPU, NVLink devient inutile.

Modèle Quant VRAM Un Pro 6000 ?
7B / 8B INT4 ~ 5 Go Oui, de nombreux exemplaires
13B INT4 ~ 9 Go Oui, de nombreux exemplaires
32B INT4 ~ 20 Go Oui, 4 fois simultanément
70B (Llama 3.3, Qwen) INT4 ~ 42 Go Oui, plus cache KV
70B INT8 ~ 75 Go Oui, serré
Qwen2.5-VL 72B INT4 ~ 48 Go Oui
405B (Lama 3.1) INT4 ~ 240 Go Non — 3 cartes
Mixtral 8×22B INT4 ~ 80 Go Serré, une carte

L'hébergement sur une seule carte est l'architecture idéale pour presque tous les modèles dignes d'être servis en 2026. Exceptions : les modèles très volumineux et denses (405 octets, GPT-OSS 120 octets) et les configurations MoE où l'ensemble d'experts actifs tient sur une carte, mais pas l'ensemble complet des poids.

Pour une configuration multi-cartes sur PCIe, le bon choix est parallélisme des pipelinesIl ne s'agit pas de parallélisme tensoriel. Le parallélisme par pipeline divise les couches en longs blocs contigus (le GPU 0 gère les couches 0 à 39, le GPU 1 les couches 40 à 79, etc.). Le trafic inter-GPU se limite au tenseur d'activation à chaque limite de bloc — quelques centaines de kilo-octets par jeton, et non des gigaoctets par couche.

Mode de parallélisme Trafic inter-GPU par couche Sensible à l'interconnexion ?
parallèle tenseur Activation × atténuation cachée, chaque couche Oui — souhaite NVLink
Pipeline parallèle Activation uniquement aux limites des blocs Non, PCIe fonctionne parfaitement.
Données parallèles Gradients à la limite de marche (entraînement uniquement) Modérée
Parallèle d'experts (Ministère de l'Éducation) Tout à fait sur le routage expert Oui, NVLink est utile.

Sur un serveur équipé de huit cartes 5090 et d'un processeur graphique de 70 octets, le modèle n'est pas réparti entre les huit cartes. On exécute deux instances avec un pipeline à quatre voies en parallèle, ou quatre instances avec un pipeline à deux voies, ou encore – le plus souvent – ​​huit instances indépendantes d'un modèle plus petit derrière un équilibreur de charge. Le serveur à huit cartes devient alors un multiplicateur de débit à huit réplicas plutôt qu'un unique GPU virtuel de grande capacité. Pour l'inférence en production, l'architecture répliquée est généralement la solution optimale, indépendamment de la disponibilité de NVLink : elle offre une concurrence accrue et une dégradation progressive des performances en cas de défaillance d'une carte.

Quand NVLink compte vraiment

Charges de travail pour lesquelles l'absence de NVLink constitue un véritable problème, et non un problème marketing :

  • Entraînement d'un modèle qui ne tient pas sur un seul GPU. Le pré-entraînement ou l'ajustement complet d'un modèle dense de plus de 70 milliards d'éléments nécessite la répartition du modèle sur plusieurs GPU, avec une réduction globale du gradient à chaque étape. NVLink fait toute la différence entre une configuration productive à 8 GPU et quatre cartes la plupart du temps inactives.
  • Inférence parallèle tensorielle sur des modèles denses de très grande taille. Si vous avez besoin de 405 octets distribués sur plusieurs GPU et que vous ne pouvez pas accepter la latence par jeton d'un pipeline parallèle, NVLink est important.
  • MoE avec routage expert multi-GPU. L'architecture MoE est globalement très gourmande en ressources PCIe. Les cartes DeepSeek-V3, Mixtral 8×22B et autres architectures similaires à forte densité de vias et utilisant la technologie MoE en tirent clairement profit.
  • Boucles RLHF / GRPO haute fréquence. La synchronisation des politiques/références répétée des milliers de fois par époque engendre le même coût AllReduce.
  • Entraînement à la diffusion multi-GPU à grande échelle. Certains modèles de diffusion vidéo plus grands présentent des schémas d'activation de type tenseur parallèle.

Si votre charge de travail figure sur cette liste, n'achetez pas un serveur Kentino 8× 5090 en espérant des performances équivalentes à celles d'un DGX H100. Optez plutôt pour un système HGX, ou louez un H100/B200 dans le cloud pour la phase d'entraînement et transférez les poids sur site pour l'inférence. Ce flux de travail est parfaitement adapté et nous le recommandons sans hésitation.

NVSwitch : l’interface au niveau du châssis

NVLink est une connexion point à point : elle relie le GPU A au GPU B via un faisceau de liens. Au-delà de deux GPU dans un boîtier, vous pouvez soit attribuer à chaque paire son propre NVLink dédié (ce nombre est limité à quatre), soit insérer un commutateur NVLink. Le NVSwitch de NVIDIA remplit cette fonction.

Sur une carte mère HGX H100 à 8 GPU, quatre puces NVSwitch offrent à chaque GPU une bande passante maximale de 900 Go/s entre tous les autres, via NVLink 4, sans contention. Sur un rack GB200 NVL72, NVSwitch gère 72 GPU dans une topologie unique non bloquante, avec un débit de 1.8 To/s par GPU et un débit agrégé de 130 To/s. C'est grâce à NVSwitch que le concept de « GPU virtuel unique » fonctionne réellement ; sans lui, NVLink n'est qu'un simple câble de connexion plus rapide.

Pratique:

  • Aucun NVSwitch dans aucune configuration Kentino. NVSwitch est livré uniquement avec les boîtiers HGX et DGX certifiés NVIDIA. Aucune puce de remplacement n'est compatible avec les boîtiers Supermicro ou Bone64c.
  • Jamais de NVSwitch dans aucune carte RTX. Centre de données uniquement.
  • Le GB200 NVL72 est un boîtier rack, et non un serveur. 72 GPU coopèrent via NVLink câblé en cuivre à la vitesse du fond de panier. Câbles, commutateurs et fond de panier sont tous des solutions propriétaires NVIDIA. Le prix catalogue se chiffre en millions de dollars américains, avec des délais de livraison de plusieurs trimestres. Il s'agit du haut de gamme que NVLink permettra en 2026. Pas pour nous.

Coût et disponibilité

Les systèmes compatibles NVLink bénéficient d'une tarification spécifique. Marché estimé mi-2026, États-Unis/UE :

Classe système GPU Prix ​​catalogue délai de livraison
4× RTX 5090 (classe Kentino) 4 25 40 à XNUMX XNUMX € 2-4 semaines
8× RTX 5090 (classe Kentino) 8 50 80 à XNUMX XNUMX € 3-6 semaines
4× RTX Pro 6000 Blackwell 4 60 90 à XNUMX XNUMX € 3-6 semaines
8× RTX Pro 6000 Blackwell 8 120 180 à XNUMX XNUMX € 4-8 semaines
HGX H100 SXM (8× H100, NVSwitch) 8 250 350 à XNUMX XNUMX € 8-16 semaines
HGX B200 SXM (8× B200, NVSwitch) 8 400 550 à XNUMX XNUMX € 12-24 semaines
GB200 NVL72 (72× B200) 72 3 à 4 millions d'euros et plus 6 – 12 mois

L'écart de prix entre une configuration Kentino 8× Pro 6000 et une HGX H100 est d'environ 2 fois supérieur pour un même nombre nominal de GPU. L'écart de performances pour les charges de travail ne nécessitant pas NVLink est bien inférieur à 2. Pour les tâches dépendant de NVLink (entraînement de modèles complexes, calculs parallèles de tenseurs sur 405 octets), la HGX H100 est l'outil idéal et son prix est justifié. En règle générale : si votre charge de travail tient sur un GPU de 96 Go, la configuration Pro 6000 permet d'économiser plus de 50 % de votre budget. Dans le cas contraire, investissez dans NVLink.

Résumé

Questionne toi Réponse de Kentino sur la composition de l'équipe
Existe-t-il une carte graphique actuelle compatible NVLink ? Non
Existe-t-il une configuration actuelle utilisant NVSwitch ? Non
Tenseur parallèle à 70B ? Oui, pénalité d'échelle d'environ 0.6 à 0.7× par rapport à PCIe
Un pipeline parallèle à 70 milliards ? Oui, quasi linéaire
Faire tenir un 70B sur une seule carte ? Oui — RTX Pro 6000 Blackwell, 96 Go
Former un 70B à partir de zéro ? Pas efficace — optez pour le cloud ou HGX
Servir 405B dense ? Uniquement en parallèle sur plus de 3 Pro 6000
Ministère de l'Éducation à grande échelle ? MoE plus petit oui ; classe DeepSeek non
Construire un équivalent DGX ? Non

Que faire ensuite

Si vous dimensionnez un système et que vous n'êtes pas sûr d'avoir besoin de NVLink, procédez comme suit :

  1. Notez le modèle le plus volumineux que vous devez prendre en charge, avec quantification. Si ça tient sur un seul GPU, NVLink n'a aucune importance. Point final.
  2. Si cela ne convient pas, demandez si un montage en parallèle sur pipeline est acceptable. Le pipeline ajoute de la latence par jeton, mais le débit reste correct. Pour l'inférence par lots et la plupart des charges de travail de chat, c'est acceptable.
  3. Si le parallélisme de pipeline n'est pas acceptable (Pour un modèle très volumineux, une latence minimale par flux unique est requise), ainsi que le parallélisme tensoriel. L'utilisation de PCIe engendre un surcoût de 30 à 50 %. Si ce surcoût représente un frein à votre rentabilité, NVLink justifie la mise à niveau du système.
  4. Si vous êtes en formation, la réponse est presque toujours NVLink. Entraîner des modèles denses de plus de 13 octets sur PCIe représente une mauvaise utilisation des ressources GPU. Louez NVLink dans le cloud ou investissez dans HGX.
  5. Pour l'inférence, une carte unique Pro 6000 Blackwell ou une réplique multiple 4×/8× 5090 est généralement la bonne réponse. C'est ce que la plupart de nos clients achètent, et ça fonctionne.

NVLink n'est pas mauvais. Il excelle dans son domaine. NVIDIA a établi une distinction nette entre les architectures, et en dessous de ce seuil, la solution architecturale optimale consiste à « héberger des modèles plus petits, à les répliquer horizontalement et à utiliser le traitement parallèle par pipeline lorsque le fractionnement est nécessaire ». C'est précisément le rôle de la gamme Kentino.

Suivi : InfiniBand et RoCE pour l’interconnexion à l’échelle d’un cluster (N02), topologies de cluster commutées (N04), et PCIe comme interconnexion pour les petits clusters (K07).


Ceci fait partie du Kentino Wiki, une série de référence sur l'intelligence artificielle, la robotique et les systèmes qui les connectent. Commentaires et corrections bienvenus. info@kentino.com.