Topologies sans commutateur : maillées, en anneau et à connexion directe pour les petits clusters d’IA

Un commutateur 400 GbE à 32 ports, avec ses composants optiques, ses modules d'extension et les licences logicielles nécessaires, coûtera entre 40 000 et 80 000 € mi-2026, et un commutateur NDR InfiniBand à 64 ports sera encore plus onéreux. Pour un client construisant une station d'entraînement de deux à quatre nœuds, le commutateur peut coûter plus cher que les GPU d'un seul nœud. Il ajoute également un saut de latence, un point de défaillance unique, un cycle de vie de firmware distinct et l'équivalent d'un petit projet d'optimisation PFC/ECN si vous utilisez RoCE.

Le fait dont presque personne ne parle, c'est que En dessous d'environ huit nœuds, vous n'avez pas du tout besoin de commutateurVous pouvez connecter directement les cartes réseau entre elles, vous passer complètement du commutateur et obtenir une solution plus simple, moins chère et un peu plus rapide. Ce que presque personne n'admet, c'est que… Au-dessus d'environ huit nœuds, sans interrupteur, une chute se produit.Dès lors, le câblage, le nombre de ports et le fonctionnement ne sont plus justifiables. Cet article dresse un tableau précis de cette situation.

C'est le complément de N04 (topologies commutées). Lire N06 pour les calculs de latence sur lesquels repose la victoire sans interrupteur, et K07 pour savoir à quoi ressemble un nœud de base unique — l'élément constitutif auquel cet article fait référence.

Plaidoyer pour l'absence d'interrupteur

Quatre avantages gratuits liés à la suppression de l'interrupteur :

  1. Latence de commutation nulle. Un commutateur Ethernet moderne à commutation directe avec intelligence artificielle consomme entre 400 et 600 ns par saut. Un commutateur InfiniBand NDR affiche une latence inférieure à 100 ns. Un câble reliant directement deux cartes réseau ajoute un délai dû à la transmission (environ 5 ns/m sur cuivre, et la même chose sur fibre optique) et rien d'autre. Dans une configuration ping-pong à deux nœuds, cela réduit la latence unidirectionnelle d'environ 2 µs à environ 1.2–1.5 µs.
  2. Aucun frais de changement. Une connexion directe à deux nœuds comprend deux cartes réseau et un convertisseur numérique-analogique (DAC). Une connexion triangulaire à trois nœuds comprend trois cartes réseau et trois convertisseurs numérique-analogique. Les économies réalisées sur les dépenses d'investissement, même par rapport à un petit commutateur 100 GbE avec optique QSFP28, sont considérables pour une petite configuration : entre 10 000 et 30 000 €, qui peuvent être réinvestis dans les cartes graphiques.
  3. Pas de maux de tête liés au PFC/ECN. Une liaison directe entre deux cartes réseau est une liaison point à point — le contrôle de flux est une conversation entre deux parties, le PFC se réduit à « dire au pair de s'arrêter ». Il n'y a pas de pathologie de propagation des pauses à l'échelle du réseau car il n'y a pas de réseau.
  4. Une seule classe de périphérique à déboguer. Lorsqu'un problème survient sur une infrastructure sans commutateur, la liste des suspects se limite à deux cartes réseau, un câble et les pilotes du noyau aux deux extrémités. L'espace de recherche est donc restreint.

Dans le cas d'un système à deux nœuds : il suffit de les brancher ensemble.

Il s'agit de la configuration de cluster d'IA la plus simple possible, et celle où l'absence de commutateurs est sans ambiguïté correcte.

Nœud A — K-AI 256
  • 8× RTX 5090
  • ConnectX-7 OSFP (400 Gb/s)
DAC 400G (passif, ≤3 m)
Nœud B — K-AI 256
  • 8× RTX 5090
  • ConnectX-7 OSFP (400 Gb/s)

Connexion directe à deux nœuds : un DAC OSFP passif, pas de commutateur, latence RDMA d'environ 0.8 à 1.2 µs, débit utilisable d'environ 50 Go/s par direction.

Un seul convertisseur numérique-analogique OSFP (DAC) est utilisé entre deux cartes réseau ConnectX-7 à 400 Gbit/s. Cela constitue l'intégralité de l'interconnexion entre les nœuds. Dans une architecture plus complexe, les mêmes cartes réseau, normalement connectées à un commutateur, sont ici connectées entre elles. Les verbes RDMA fonctionnent, NCCL les détecte automatiquement et GPUDirect RDMA reste inchangé.

Ce que vous obtenez : ~50 Go/s utilisables par direction, latence RDMA brute inférieure à la microseconde (ib_send_lat Temps d'atterrissage : environ 0.8 à 1.2 µs (un seul câble). Aucun problème d'agrégation puisqu'il n'y a rien à agréger. Pas de sursouscription puisqu'il n'y a pas de point de distribution.

Pour une configuration de formation à deux nœuds (la plus courante chez nos clients qui ont besoin de plus d'espace), c'est la solution idéale. Inutile de changer de commutateur : branchez-les directement. Investissez les économies réalisées dans un SSD NVMe plus performant ou un deuxième port réseau pour plus de redondance.

Une amélioration pratique : utiliser un double port Connectez le ConnectX-7 et exécutez deux DAC 200 Gb/s en parallèle entre les boîtiers, avec NCCL configuré pour utiliser les deux HCA (NCCL_IB_HCA=mlx5_0,mlx5_1Vous perdez un peu de débit maximal par flux, mais vous gagnez en redondance des chemins et en efficacité pour les petits messages grâce aux paires de files d'attente parallèles. C'est le comportement par défaut que nous privilégions pour les architectures à deux nœuds.

Trois et quatre nœuds : triangle et K₄

Trois nœuds constituent le plus petit cas où la topologie commence à avoir une importance. Les options sont :

  • Chaîne linéaire (ABC). Deux câbles. Diamètre 2. Le nœud B est un point névralgique : tout le trafic A-C y transite. À éviter.
  • Triangle (maillage complet). Trois câbles. Diamètre 1. Chaque nœud possède deux ports. Chaque flux correspond à un saut. C'est la bonne réponse.
Triangle (3 nœuds, K₃) A B C 3 liens · 2 ports/nœud · diamètre 1 K₄ maillage complet (4 nœuds) A B D C 6 liens · 3 ports/nœud · diamètre 1

À gauche : triangle (K₃) — 3 nœuds, 3 câbles, diamètre 1. À droite : maille complète K₄ — 4 nœuds, 6 câbles, diamètre 1. Chaque paire est directement connectée.

C'est à partir de quatre nœuds que ça devient intéressant. Le réseau maillé complet (le graphe complet K₄) comporte six liens au total, trois ports par nœud et un diamètre de 1. Chaque nœud atteint tous les autres en un seul saut. Calcul du câblage :

Nodes Liens en maille complète Ports par nœud Diamètre
2 1 1 1
3 3 2 1
4 6 3 1
5 10 4 1
6 15 5 1
7 21 6 1
8 28 7 1

Le nombre total de ports mesh par nœud est N-1C’est pourquoi cette approche s’avère rapidement inefficace. Avec huit nœuds, il faut sept ports par boîtier, ce qui représente la limite de l’utilisation pratique d’un seul emplacement PCIe Gen5 x16.

Quand un réseau maillé complet à quatre nœuds est-il préférable à un petit commutateur ? Plus précisément, lorsque vous disposez de 4 nœuds K-AI 128 pour l’inférence et que vous souhaitez les coupler étroitement, que vous utilisez RoCE et que vous ne souhaitez pas de PFC via un commutateur, et que le surcoût marginal de 15 000 € à 25 000 € d’un commutateur 100 GbE avec optique est significatif dans votre budget.

Quand un petit commutateur est-il avantageux, même avec quatre nœuds ? Si vous envisagez d'ajouter un cinquième nœud au prochain trimestre. Ajouter un nœud à un réseau maillé K₄ nécessite de recâbler chaque nœud existant pour ajouter les nouveaux ports. Un commutateur dispose de ports libres ; il suffit de le brancher.

Le cas à 8 nœuds : hypercube, avec un astérisque

Le 3-cube (Q₃) — un hypercube de dimension 3 — est la configuration classique sans commutateurs pour huit nœuds. Chaque nœud occupe un sommet du cube ; chaque arête du cube constitue une liaison directe. Trois ports par nœud, douze liaisons au total, diamètre 3.

000 001 010 011 100 101 110 111 Q₃ à 3 cubes : 8 nœuds · 12 liens · 3 ports/nœud · diamètre 3 Étiquettes en code Gray — chaque bord diffère d'un seul bit
Propriétés Valeur
Nodes 8
Liens 12
Ports par nœud 3
Diamètre 3
bande passante de bissection 4 à gauche

L'avis honnête : C'est rare en production. Cela fonctionne, le pire des cas pour un diamètre de 3 est acceptable pour la plupart des réseaux collectifs, mais le schéma de câblage est véritablement déroutant pour quiconque ne l'a pas réalisé, le dépannage nécessite la compréhension du code Gray, et un petit commutateur 16 ports 200 GbE coûte désormais aussi cher que les ports NIC et les câbles supplémentaires. L'hypercube à 8 nœuds est plus intéressant comme exemple pédagogique que comme produit commercialisé. À partir de huit nœuds, nous recommandons par défaut l'utilisation d'un commutateur.

La bague : bête, simple et étonnamment pertinente

Oubliez la minimisation du diamètre. L'anneau connecte chaque nœud uniquement à ses deux voisins : ABCD-...-A. Deux ports par nœud, quelle que soit la taille du cluster. N liens au total. Diamètre N/2.

A B C D H G F E Anneau à 8 nœuds : 8 liens · 2 ports/nœud · diamètre 4 · NCCL ring-allreduce mappe directement

Cela paraît aberrant : un diamètre de 4 sur 8 nœuds, un diamètre de 16 sur 32 nœuds. Pourquoi n’est-ce pas toujours faux ?

Parce que L'anneau allreduce de NCCL est mappé exactement sur un anneau physique.L'algorithme envoie chaque bloc de données une fois par phase sur l'anneau ; si la topologie physique est déjà en anneau, l'algorithme s'exécute à la vitesse d'une liaison unique, sans gaspillage de bande passante. Par défaut, NCCL utilise une topologie en anneau plutôt qu'en arbre pour les messages de taille moyenne à importante, car elle permet d'obtenir une bande passante optimale. 2(N-1)/N × link bandwidth Pour allreduce, le diamètre de la topologie physique n'a pas d'importance pour les messages de grande taille ; ce qui compte, c'est que chaque maillon soit utilisé en parallèle, et l'anneau remplit parfaitement cette fonction.

Le contexte pragmatique où une bague physique constitue la solution idéale sans interrupteur est Bancs d'essai de 4 à 8 nœuds où chaque nœud possède déjà exactement deux ports RDMALe hic : l’anneau ne comporte aucune redondance de chemin. Un seul câble défectueux suffit à scinder le groupe en deux.

Quand un système sans interrupteur l'emporte sur un petit interrupteur, en nombre

topologie Nodes Liens Ports/nœud Diamètre Bissection (liens)
Connection directe 2 1 1 1 1
Triangle (K₃) 3 3 2 1 2
K₄ maille intégrale 4 6 3 1 4
anneau à 4 nœuds 4 4 2 2 2
anneau à 8 nœuds 8 8 2 4 2
Cube Q₃ à 8 nœuds 8 12 3 3 4
Q₄ à 16 nœuds 16 32 4 4 8
Étoile à 8 nœuds (commutée) 8 8 1 2 dépend de l'interrupteur

Comparaison de prix approximative pour une architecture à 8 nœuds, mi-2026 (EUR hors TVA) :

Approche Cartes réseau nécessaires Câbles de commande Basculer Bande totale
Étoile 200 GbE à 8 nœuds et un seul commutateur 8 ports 200 GbE à port unique 8× DAC ~18 à 28 000 € 25 à 35 000 €
Anneau à 8 nœuds, sans interrupteur 8 ports doubles 200 GbE 8× DAC aucun 15 à 22 000 €
Cube Q₃ à 8 nœuds, sans interrupteur 8× équivalent tri-port 12× DAC aucun 18 à 26 000 €
Réseau mesh K₄ à 4 nœuds, sans interrupteur 4× équivalent tri-port 6× DAC aucun 9 à 13 000 €
Commutateur 100 GbE compact à 4 nœuds 4 ports 100 GbE à port unique 4× DAC ~8 à 12 000 € 11 à 16 000 €
2 nœuds directs 2 ports 400 GbE à port unique 1× DAC aucun 3 à 5 000 €

Le seuil à partir duquel le commutateur est rentable se situe autour de 6 à 8 nœuds, selon le niveau de bande passante et vos intentions de croissance.

Liaison montante : la partie que les gens oublient

Une infrastructure de données sans commutateur est totalement autonome. Elle n'est connectée à aucun système. Le cluster nécessite néanmoins une liaison montante pour l'extraction des jeux de données et des modèles depuis le stockage d'entreprise, l'accès SSH depuis les postes de travail des développeurs, la télémétrie vers Prometheus/Grafana, la gestion IPMI/BMC et le trafic du registre de conteneurs.

Modèle A — chaque nœud possède une carte réseau de gestion distincte. Chaque nœud dispose d'un petit port 25 GbE (voire 10 GbE) connecté à un commutateur de gestion économique, totalement indépendant du réseau RDMA. C'est presque toujours la solution idéale. Le réseau RDMA est un environnement stérile, sans perte et optimisé ; le plan de gestion est un réseau Ethernet classique avec un trafic normal. Les mélanger risque de perturber le fonctionnement des collectifs.

Modèle B — nœud de liaison montante dédié. Un nœud du cluster possède un port supplémentaire permettant la connexion externe. Les autres nœuds accèdent à Internet via ce nœud. Cette solution convient aux budgets serrés et aux petites configurations de laboratoire, mais le nœud de liaison montante devient un goulot d'étranglement pour la lecture des données et un point de défaillance unique pour l'accès à la gestion.

Le mur dur à ~16 nœuds

Switchless cesse de fonctionner au-delà de 16 nœuds pour trois raisons indépendantes, dont chacune suffit :

  1. Nombre de ports par nœud. Le mesh complet veut N-1 ports par nœud. Hypercube en veut log₂(N)Même en tenant compte de la mise à l'échelle logarithmique, 16 nœuds nécessitent 4 ports par nœud, ce qui représente la limite pratique de la densité de cartes réseau sur un seul emplacement PCIe Gen5 x16. 32 nœuds nécessitent 5 ports par nœud, ce qui implique la gestion de plusieurs emplacements et de plusieurs configurations NUMA.
  2. Combinatoire des câbles. Un réseau maillé complet K₄ à 16 nœuds compte 120 câbles. Un hypercube Q₄ à 16 nœuds en compte 32. Dans les deux cas, l'étiquetage, la documentation et l'accessibilité physique de chaque câble sont essentiels. Trouver un seul câble mal câblé dans un hypercube à 32 câbles peut prendre des heures.
  3. Récit opérationnel. Le remplacement d'une carte réseau défaillante dans une infrastructure sans commutateur nécessite d'identifier les N-1 (ou log N) câbles qui la connectaient, puis de les reconnecter un par un à un port spécifique de la nouvelle carte. La différence de MTTR par rapport à une infrastructure commutée est bien réelle.

En résumé : le mode sans interrupteur convient parfaitement à 2 à 4 nœuds dédiés, défendable pour 5 à 8 nœuds avec un engagement clair de « ne pas se développer »., et une erreur pour 9 nœuds ou plusÀ partir de 9 ans, achetez une Switch.

Deux constructions en béton qui méritent d'être décrites

2× K-AI 256 Turin Dual, connexion directe, 400G. Deux nœuds EPYC Turin à 8 GPU (5090 ou RTX Pro 6000 Blackwell), chacun équipé d'un port ConnectX-7 400 GbE/NDR, et reliés par un DAC OSFP passif de 3 m. Coût total du matériel inter-nœuds : environ 4 000 €. Débit du bus NCCL allreduce pour les messages volumineux : environ 45 Go/s. Cette configuration convient à l'inférence parallèle bidirectionnelle de tenseurs d'un modèle dense de 405 octets (couches réparties sur les deux nœuds), ou à l'optimisation d'un modèle de 70 octets ne tenant pas sur un seul nœud. Nous avons déployé plusieurs variantes de cette configuration. Elle est simple, mais efficace, et son coût est nettement inférieur à celui d'une configuration équivalente avec commutateur.

4× K-AI 128 en K₄ maille complète, 100G. Quatre nœuds EPYC monoprocesseurs équipés chacun de quatre cartes graphiques RTX Pro 6000 Blackwell. Chaque nœud dispose d'une configuration réseau équivalente à trois ports (un port double et un port simple, ou un port quadruple avec un port inutilisé) et d'une architecture DAC 100 GbE. Six câbles sont nécessaires au total. La bande passante de bisection atteint 400 Gb/s. Cette architecture est utilisée pour l'inférence parallèle tensorielle d'un modèle de classe 70B avec répartition en quatre voies et transmission complète de l'activation entre chaque paire. Elle élimine le commutateur comme point de défaillance unique pour le service d'inférence, et le budget du client a été alloué aux GPU plutôt qu'à l'équipement de commutation. En revanche, le nombre de nœuds est limité à quatre ; toute extension nécessiterait une refonte de l'architecture.

Quand le sans-interrupteur gagne

  • 2 nœuds — toujours sans interrupteur. Aucun argument valable pour un changement.
  • 3 nœuds — triangle sans interrupteur. Trois câbles, chaque nœud à un saut de distance. Trivial.
  • 4 nœuds — K₄ sans interrupteur si vous ne prévoyez pas de croissance, sinon un petit interrupteur. Les deux hypothèses sont défendables ; l'hypothèse de croissance est le facteur déterminant.
  • 5 à 8 nœuds — généralement commutés. L'architecture en anneau est envisageable pour les tâches gourmandes en bande passante, tandis que l'architecture hypercube est réservée aux utilisateurs les plus exigeants. Dans les deux cas, il est plus difficile de justifier l'achat d'un simple commutateur à 16 ports.
  • 9 nœuds ou plus — commutés. Toujours. Continuer sans changer de système au-delà de ce point est une erreur déguisée en économie.

Si vous dimensionnez un petit cluster d'IA et que le poste de commande « switch » fait grimper la nomenclature :

  1. Comptez les nœuds dont vous avez réellement besoin. Pas « pour les cinq prochaines années ». Cette année et l’année prochaine. Si la réponse honnête est 2 à 4 ans, alors la solution sans rupture de service est bien réelle et mérite d’être prise en compte.
  2. Cartographiez la disposition de la carte réseau. Le module ConnectX-7 double port QSFP112 200 Gb/s est le composant à connexion directe le plus courant dans nos configurations 2026. Le module SFP56 quadruple port est l'option pour un plus grand nombre de nœuds, à une vitesse par port inférieure.
  3. Choisissez votre posture de croissance. S'il y a la moindre chance de dépasser 8 nœuds, achetez le petit commutateur dès maintenant. Recâbler un réseau mesh ultérieurement est vraiment fastidieux.
  4. Planifiez le plan de gestion séparément. Infrastructure de données sans commutateur, plan de gestion commuté sur réseau 10 GbE économique. Ne les regroupez pas sur un seul jeu de câbles.
  5. Courir nccl-tests sur la topologie telle que construite avant de déclarer victoire. Le NCCL_DEBUG=INFO Les résultats vous indiquent quelles liaisons physiques NCCL utilise réellement ; vérifiez-les par rapport au schéma.
  6. Documentez le câblage. Photos, étiquettes des ports, un schéma d'une page dans le rack. La première fois qu'une carte réseau tombera en panne à 2 h du matin, vous serez bien content.

Articles complémentaires à lire : N04 pour l'alternative commutée, N06 pour l'analyse de la latence qui justifie la victoire sans commutateur, N02 pour le choix entre InfiniBand et RoCE qui influence le choix de votre carte réseau, et K07 pour le nœud de base auquel tout cela se connecte.


Ceci fait partie du Kentino Wiki, une série de référence sur l'intelligence artificielle, la robotique et les systèmes qui les connectent. Commentaires et corrections bienvenus. info@kentino.com.