Cartes d'extension GPU dans les serveurs d'IA : quand en avez-vous besoin et quels sont les risques de panne ?

Une carte d'extension pour GPU est le câble, la carte ou l'ensemble qui déplace un port PCIe de son emplacement d'origine sur la carte mère jusqu'à l'emplacement du GPU. Sur un PC de bureau avec une seule carte, on ne se soucie pas des cartes d'extension. En revanche, dans un rack 4U avec quatre RTX 5090, ou une configuration EPYC bi-socket avec huit cartes, on ne pense plus qu'à ça. C'est au niveau de la carte d'extension que l'intégrité du signal se dégrade discrètement, que la connexion bascule silencieusement en Gen3, et qu'une configuration qui fonctionne parfaitement en test commence à perdre une carte graphique par jour en production.

Voici le guide pratique : ce que sont les risers, quand en avoir besoin, les quatre catégories, pourquoi la Gen5 change tout, comment diagnostiquer et ce qu’il faut spécifier.

Pourquoi les rehausseurs existent-ils ?

Sur une carte mère, les emplacements PCIe x16 sont espacés d'environ 20 mm. Une carte graphique double emplacement mesure entre 40 et 70 mm d'épaisseur. Le calcul est donc impossible. Dès lors que l'on souhaite installer plus de deux cartes dans un boîtier, ou des cartes à trois emplacements, ou encore une configuration avec un flux d'air orienté de l'avant vers l'arrière du rack, il est nécessaire de déplacer physiquement les cartes graphiques.

Trois raisons pratiques pour lesquelles une construction nécessite des colonnes montantes :

Ajustement au châssis. Dans un châssis rack 4U, les GPU sont disposés à plat, parallèlement à la carte mère, dans le sens du flux d'air. Les ports PCIe de la carte mère sont perpendiculaires à ce flux. Dans un châssis rack à montage plat, chaque GPU repose sur une colonne montante, sans exception.

Isolation thermique. Même lorsque les emplacements sont compatibles, installer deux cartes graphiques dos à dos signifie que chacune aspire la chaleur dégagée par l'autre. Une courte colonne montante les sépare de 40 à 80 mm et offre à chaque carte son propre flux d'air. Sur des cartes de 350 W, cela représente une différence de température de 72 °C à 86 °C en charge soutenue.

Espacement multi-GPU. Une configuration à 8 GPU dans un boîtier 4U/5U ne peut pas utiliser les emplacements de la carte mère. Celle-ci dispose de quatre ou cinq emplacements x16 ; le boîtier doit en présenter huit alignés, le long du flux d'air. Le système de risers assure l'interface mécanique entre les deux.

Les quatre catégories que vous voyez réellement

Circuit imprimé rigide (1U/2U)
10–60 mm. Compatible Gen4/Gen5. Bon marché, d'origine, sans surprise. Si votre châssis en est équipé, utilisez-le.
Ruban / Flexible
150–300 mm. Gen3 : acceptable ; Gen4 : généralement acceptable sur de courtes distances. Gen5 : limite, même à 100 mm. Problème courant lors du bricolage.
Actif / Reminuteur
Jusqu'à 600 mm. Gen4/Gen5 avec retimer intégré. 150 € à 300 € par GPU. Standard pour les longues sessions Gen5.
MCIO / SlimSAS
300 à 500 mm en Gen5 x16. Conçu pour 32 GT/s. Natif Gen5. La seule solution adaptée aux configurations 8 GPU Gen5.

Les risers sont classés par longueur de câble et compatibilité avec la 5e génération. Seul le MCIO est compatible avec les configurations de production 8 GPU 5e génération.

1. Rehausses rigides pour circuits imprimés (adaptateurs 1U / 2U)

Carte PCB plate se connectant à la carte mère et présentant les ports PCIe à angle droit ou décalés de 30 à 60 mm. Standard dans les serveurs 1U/2U haute densité. Courte, passive, conçue en usine et spécifique au châssis. Si votre châssis en est équipé, utilisez-le.

2. Rehausses à ruban et flexibles

Le composant classique à monter soi-même. Câble plat et flexible de 150 à 300 mm de long, connecteur PCIe à une extrémité et connecteur de bord PCIe à l'autre. Moins de 100 €. Incontournable dans les configurations de minage de cryptomonnaies, et encore courant dans les configurations d'IA à petit budget.

Les câbles de remontée à ruban fonctionnent parfaitement en Gen3. En Gen4, ils fonctionnent la plupart du temps s'ils sont courts (moins de 200 mm) et que l'environnement électromagnétique est propre. En Gen5, leur fonctionnement est aléatoire, même sur 100 mm : la conception du câble n'a jamais été prévue pour 32 GT/s.

Nous avons constaté que les cartes d'extension Gen4 fonctionnent correctement à x16 en test, puis passent à Gen3 sous charge lorsque le châssis chauffe. Nous avons également observé que la même carte fonctionne sur EPYC Genoa mais ne parvient pas à dépasser la Gen3 sur EPYC Turin, car le PHY Gen5 de Turin utilise des marges de synchronisation plus serrées.

Verdict : convient pour la génération 3. Acceptable pour de courtes séries de production de génération 4 si le fournisseur le spécifie. Inacceptable pour la production de génération 5.

3. Montantes actives / à temporisateur

Un répéteur de temporisation est une puce intégrée à la ligne montante qui rétablit l'horloge et régénère un signal propre. Du point de vue de l'intégrité du signal, il divise par deux la longueur du câble : 400 à 600 mm avec un répéteur de temporisation en milieu de trajet, contre 200 mm pour une ligne montante passive.

Cela ajoute 150 à 300 € par GPU et une latence de l'ordre de la nanoseconde (négligeable pour le calcul). Réponse classique à la question « câble long, compatibilité Gen4/Gen5 requise » : la plupart des kits Gen5 d'usine les utilisent.

4. Connexions câblées MCIO et SlimSAS

MCIO (Mini Cool Edge IO) s'est imposé comme la norme pour le câblage des serveurs de 5e génération. SlimSAS (SFF-8654), son prédécesseur, était courant en 4e génération. Tous deux remplacent le connecteur PCIe par un connecteur de câble à chaque extrémité : la carte mère et la carte d'extension exposent des ports MCIO, et un câble assure la liaison entre elles.

Le câble MCIO est un câble à paires différentielles conçu pour 32 GT/s. Une longueur de 300 à 500 mm en Gen5 x16 est courante. Il offre une impédance contrôlée, un blindage adéquat et des connecteurs à verrouillage fiable. Le connecteur de bord PCIe, une norme vieille de 25 ans, est le point faible de toute nappe de connexion ; le MCIO l'élimine.

Carte mère — 4 ports MCIO x16
4 câbles MCIO (300–400 mm)
Câbles MCIO
Carte de commutation/bifurcation PCIe
8 câbles MCIO (200–300 mm)
Câbles MCIO
8 cartes d'extension pour GPU → 8 GPU à montage plat
Chaque carte d'extension représente le connecteur PCIe de bord au niveau du GPU.

Chaîne de câblage MCIO Gen5 typique à 8 GPU : carte mère → carte de commutation/bifurcation → cartes d'extension GPU → GPU.

Verdict : MCIO est désormais indispensable pour la 5e génération. Si un fabricant propose une carte mère 8 GPU de 5e génération sans MCIO, il faut le contester.

Intégrité du signal, Gen4 vs Gen5

Paramètre Gen3 (8 GT/s) Gen4 (16 GT/s) Gen5 (32 GT/s)
Période de transition ~125 ps ~62 ps ~31 ps
Câble passif pratique Max ~ 400 mm ~ 200 mm ~ 100 mm
Max avec retimer ~600+ mm ~ 500 mm ~ 400 mm
Tolérance des connecteurs de bord indulgent serré impitoyable
Marge oculaire à 250 mm passive grand ouvert rétrécissement fermé

Avec la Gen3, on peut presque tout faire avec une nappe. Avec la Gen5, c'est impossible, et les pannes ne sont pas toujours bruyantes.

Scénario le plus fréquent : la liaison s'établit à la valeur la plus basse entre le slot et le périphérique après négociation LTSSM (Link Training and Status State Machine). Si la qualité du signal est insuffisante, elle est réajustée (silencieusement, généralement lors de la première charge importante du GPU) et se stabilise en Gen4 ou Gen3. Le système continue de fonctionner. La bande passante PCIe est divisée par deux. Les résultats des benchmarks sont erronés et la raison reste inconnue.

Modes de défaillance courants

Par ordre approximatif de fréquence à laquelle ils s'attaquent à une configuration rack à 4 ou 8 GPU :

Réduction de la charge jusqu'à la génération 3. La carte démarre en Gen4 x16 ; le châssis chauffe, la résistance de contact du connecteur augmente, la marge d'observation se réduit, la liaison se réinitialise et se stabilise en Gen3. Les tests de bande passante indiquent environ 12 Go/s au lieu des 24 Go/s attendus. Cause : carte d'extension passive défectueuse, généralement une longue nappe.

Déconnexion intermittente. Le GPU disparaît de nvidia-smi Intervention en cours, généralement accompagnée de messages AER. Problème de positionnement des connecteurs sous l'effet des cycles thermiques, parfois un problème d'alimentation, parfois une légère ouverture de la soudure sous l'effet de la chaleur.

La largeur passe de x16 à x8 ou x4. Une ou deux voies sont trop encombrées pour être empruntées ; le lien apparaît sur les survivants. Visible dans lspci.

Panne du train au démarrage. La carte n'apparaît tout simplement pas. Places assises câblées ou tribune morte.

Erreurs AER corrigibles inondant dmesg. Correction instantanée des erreurs matérielles ; à un cheveu de la panne générale. Alerte urgence : corrigez le problème avant qu’il ne s’aggrave.

Panne liée à l'alimentation électrique. Certaines cartes d'extension acheminent les 75 W du slot via le câble. La finesse des conducteurs entraîne des baisses de tension et des coupures de connexion lors d'une charge GPU soutenue. Ce problème est rare sur les cartes d'extension d'origine, mais fréquent sur les câbles plats bon marché.

Comment diagnostiquer

Trois outils Linux standard : nvidia-smi, lspci, dmesg.

Largeur et vitesse réelles du lien :

$ nvidia-smi --query-gpu=index,pcie.link.gen.current,pcie.link.width.current --format=csv
0, 4, 16
1, 4, 16
2, 3, 16     ← train-down
3, 4, 16

Le GPU 2 est de génération 3 et non 4 ; son circuit de montage nécessite une investigation.

Du côté PCIe :

$ sudo lspci -vvv -s <bus:dev.fn> | grep -E "LnkCap|LnkSta"
    LnkCap: Speed 32GT/s, Width x16
    LnkSta: Speed 16GT/s (downgraded), Width x16

(downgraded) est la fonction de liaison ci-dessous.

Anneau du noyau pour les erreurs AER :

$ sudo dmesg -T | grep -iE "aer|pcie"
pcieport 0000:60:01.0: AER: Corrected error received: 0000:61:00.0

Les erreurs corrigées ne sont pas encore fatales, mais indiquent une défaillance. Appliquez une charge soutenue et surveillez le taux de défaillance ; s'il augmente, la colonne montante est défaillante.

Pour déterminer si le problème vient de la carte graphique ou de la carte d'extension, essayez la carte graphique suspecte dans un emplacement fonctionnel. Le problème se manifeste avec la carte elle-même, et avec la carte d'extension, avec l'emplacement.

Exemples concrets tirés de constructions réelles

4 GPU : 4 × RTX 5090, EPYC Genoa, châssis 4U

La carte mère expose 4 ports PCIe Gen5 x16. Les GPU sont montés à plat dans un support situé à 220 mm du slot. Kit d'usine du constructeur : câbles MCIO Gen5 vers de petites cartes d'extension qui reproduisent le connecteur PCIe de bord au niveau du GPU.

Résultat : 4 GPU Gen5 x16, zéro AER sur un test Qwen2.5-VL 72B de 72 heures. Bande passante PCIe par GPU : 47–49 Go/s (théorique Gen5 x16 ≈ 63 Go/s ; réelle ≈ 50 Go/s après prise en compte de la surcharge du protocole). Résultats impeccables grâce à l’utilisation du kit fourni par le fabricant, conformément aux spécifications.

8 GPU : 8 cartes graphiques RTX Pro 6000 Blackwell, EPYC Turin Dual, châssis 4U

Deux processeurs, chacun doté de quatre interfaces Gen5 x16 acheminées via MCIO vers une carte mère centrale. Connexion directe : chaque GPU reçoit une interface x16 du processeur. Longueur du câble MCIO par GPU : environ 280 mm.

On atteint ici la limite de la fiabilité MCIO en Gen5. Deux des huit câbles du kit sont équipés de temporisateurs intégrés ; les six autres sont passifs. Les deux câbles les plus éloignés des processeurs nécessitent cette marge, contrairement aux six plus proches. Le fournisseur a effectué des tests sur un banc d'essai soumis à une charge thermique avant l'expédition.

Résultat : 8 × Gen5 × 16 stables. Puissance absorbée : 4.1 kW en charge soutenue. Aucun redémarrage pendant 48 heures.

Même construction, rehausseurs faits maison

Même châssis et mêmes GPU, mais cartes d'extension de ruban « Gen5 » d'un fournisseur générique :

  • Deux des huit GPU ont été entraînés à Gen4 x16 au lieu de Gen5.
  • Un des GPU a connu des défaillances intermittentes sous une charge soutenue.
  • Dégradation du débit d'environ 15 % par rapport à la configuration d'usine.

Économies réalisées : environ 600 €. Coût du débogage : trois jours d’ingénieur. Impact négatif sur le débit : permanent. À éviter absolument.

Considérations relatives à l'alimentation à double bloc d'alimentation

Un rack à 4 GPU consomme entre 1.8 et 2.4 kW en charge ; un rack à 8 GPU consomme entre 3.5 et 4.5 kW. La plupart des châssis rack de cette gamme sont livrés avec deux alimentations ATX de 2 kW.

La double alimentation dans un châssis K-AI est une alimentation divisée, et non une redondance N+1. Chaque bloc d'alimentation alimente une partie définie du système : généralement, le bloc 1 alimente quatre cartes graphiques et la carte mère, tandis que le bloc 2 alimente les quatre autres cartes graphiques (ou les quatre cartes graphiques et la baie de disques). Si un bloc d'alimentation tombe en panne, la partie qu'il alimentait est hors service. Il n'y a pas de système de secours. Pas de partage d'alimentation, pas de basculement automatique.

Ceci est important pour les risers : les 75 W côté slot fournis par certains risers proviennent de l’alimentation qui alimente ce groupe. Mélanger les risers de différents groupes d’alimentation, contrairement aux intentions du fabricant, introduit des boucles de masse et des problèmes de bruit sur la liaison PCIe. Une raison de plus d’utiliser le kit d’origine. Voir W04 pour un aperçu complet du dimensionnement des alimentations.

Pourquoi les kits de rehausse testés en usine sont meilleurs que les kits à monter soi-même

Un fournisseur de châssis proposant des racks IA à 4 ou 8 GPU a testé des dizaines, voire des centaines, de ces configurations. Le kit de riser a subi des cycles thermiques, des tests de liaison dans les conditions ambiantes les plus défavorables, une validation par rapport au PHY spécifique de la carte mère, et a généralement fait l'objet d'une révision lorsqu'un problème est survenu lors du premier lot. Une nappe DIY provenant d'un fournisseur générique a été testée par un utilisateur muni d'un oscilloscope à température ambiante sur une carte de référence, le cas échéant.

Différence de prix : quelques centaines d’euros selon la configuration. Différence de fiabilité : énorme. Chaque configuration K-AI utilise des kits de riser conformes aux spécifications du fabricant. Nous avons testé une alternative à la demande d’un client, ce qui a engendré des jours de débogage facturés par le client. La garantie a également son importance : une carte graphique défaillante sur un riser non homologué n’est pas toujours prise en charge par la garantie.

MCIO est la voie à suivre chez Gen5

En résumé : avec la 5e génération, le connecteur PCIe de bord est le maillon faible, et le MCIO le remplace. Aujourd’hui, tous les racks 8 GPU 5 dignes de ce nom utilisent le MCIO de bout en bout. Les configurations 4e génération peuvent encore utiliser le SlimSAS ou un MCIO court ; les câbles plats 3e génération conviennent uniquement au matériel 3e génération.

Lors de l'évaluation d'une configuration Gen5 à 8 GPU d'un fournisseur, posez-vous trois questions :

  1. À quoi ressemble le câblage entre le port PCIe de la carte mère et la carte graphique ? (Il faut mentionner MCIO.)
  2. Certains câbles sont-ils équipés d'un système de reprogrammation ? Lesquels et pourquoi ? (Un fournisseur connaissant bien son matériel peut fournir une réponse précise.)
  3. Quel est l'état de liaison mesuré et le taux d'erreur automatique (AER) sur un châssis entièrement équipé et soumis à une charge thermique importante ? (8 × Gen5 x16, AER nul ou quasi nul sur plus de 24 heures.)

Des réponses vagues signifient que le prestataire n'a pas effectué le travail.

Que faire ensuite

Si vous configurez ou achetez un serveur d'IA :

  1. Utilisez le kit de rehausseur testé en usine par le fournisseur du châssis pour toute configuration de rack à 4 ou 8 GPU. N’utilisez pas de rehausseurs génériques de fournisseurs tiers.
  2. Pour la Gen5, un câblage MCIO est requis. Les rubans SlimSAS ou PCIe-edge sont acceptables uniquement en Gen4.
  3. Après la mise en service, exécutez les trois commandes de diagnostic ci-dessus. Au repos, puis après 30 minutes de charge soutenue, vérifiez que chaque GPU fonctionne correctement (génération et largeur) et qu'aucune erreur AER n'est détectée. Enregistrez les résultats comme référence.
  4. Si des erreurs de train-down ou d'AER apparaissent dans les 48 premières heures, signalez-les immédiatement. Un riser de qualité médiocre ne s'améliorera pas avec le temps. Les vendeurs disposant de stock procéderont à l'échange d'un riser défectueux pendant la période de garantie.
  5. Pour les châssis à double alimentation, il est important de comprendre la répartition des alimentations. Identifiez le groupe de GPU qui sera mis hors service en cas de panne d'alimentation. Prévoyez une dégradation progressive : vLLM et la plupart des frameworks d'entraînement distribué peuvent se remettre d'une perte partielle de GPU, à condition d'avoir défini le plan de reprise.

Les articles suivants traitent de la topologie et de la bifurcation PCIe (W02), dimensionnement du bloc d'alimentation (W04), et thermiques (W05Les risers font partie des trois ou quatre éléments qui distinguent une configuration optimisée pour les benchmarks d'une configuration de production fonctionnant 24h/24 et 7j/7. Une fois bien choisis, vous n'y penserez plus.


Ceci fait partie du Kentino Wiki, une série de référence sur l'intelligence artificielle, la robotique et les systèmes qui les connectent. Commentaires et corrections bienvenus. info@kentino.com.