Topologies de cluster commutées : arbre gras, feuille-épine, libellule+, tesseract

Chaque diagramme de cluster dans une présentation fournisseur commence de la même manière : une rangée de cases intitulées « nœud », une rangée de cases intitulées « commutateur », et des flèches entre elles. Les diagrammes sont volontairement simples car le véritable choix sous-jacent est… qui topologie, avec combien sursouscription, avec est ce que nous faisons La vitesse par port est le principal facteur de coût dans un cluster d'IA après les GPU eux-mêmes.

Cet article constitue la couche topologique entre N02 (quel protocole — InfiniBand, RoCE, Ethernet standard) et N06-N08 (comment le câble se comporte réellement une fois la topologie câblée). Il couvre les quatre familles importantes en 2026 : arbre gras / Clos / épine à feuilles, libellule / libellule+, tesseract / hypercubeainsi que, tore Une famille qui a survécu dans deux secteurs spécifiques du calcul haute performance. L'article se conclut par un constat honnête : environ neuf clients Kentino sur dix n'ont besoin de rien de tout cela, et cet article existe pour le dixième.

Public cible : personnes chargées de dimensionner un cluster de formation de 8 à 64 nœuds et le réseau associé. Il ne s’agit pas d’un guide de configuration Cisco/NVIDIA, mais du modèle mental qui permet de le comprendre.

Trois choses différentes que les gens appellent « bande passante »

Avant de tracer les cadres et les flèches, un mot sur le vocabulaire. Trois termes sont utilisés indifféremment dans la documentation sur les ventes groupées, et leur nombre diffère :

Long Ce que cela mesure réellement Là où ça vous pique
Bande passante agrégée Somme des capacités de toutes les liaisons du réseau. Valeur indiquée sur la fiche technique du fournisseur. Inutile en soi. Un tissu agrégé de 1 TB/s peut tout de même constituer un goulot d'étranglement pour un flux donné.
Bande passante transversale Débit à travers une coupe arbitraire dans le tissu. Débit réel de la charge de travail lorsque le trafic est non uniforme — ce que vous mesurez pendant allreduce.
bande passante de bissection Bande passante transversale à travers le pire coupe qui divise les nœuds en deux moitiés égales. Le nombre qui détermine si allreduce atteint le taux de ligne à grande échelle.

Un commutateur 400 GbE à 32 ports offre un débit de 12.8 Tb/s. agrégat Bande passante. Connectez 16 nœuds à 400 GbE chacun, et vous obtenez 3.2 Tb/s de bissection La bande passante (8 nœuds × 400 Gb/s de chaque côté de la coupure) est de 3.2 Tb/s, et non de 12.8, pour une étape allreduce où chacun des 16 GPU envoie la moitié de son gradient à travers la bissection.

Le raccourci : La largeur de bande de bissection est la seule de ces trois valeurs qui permet de prédire le temps d'étape d'entraînement sur une charge de travail limitée par allreduce. Lorsqu'une brochure de fournisseur cite un agrégat, prenez mentalement la coupe la plus défavorable et divisez en conséquence pour revenir à la bissection.

Pour un cluster de 16 nœuds avec 8 GPU chacun (128 GPU au total) sur des nœuds à carte réseau unique 100 GbE :

topologie BW agrégé BW en coupe transversale (moyenne) Bisection BW
Commutateur 100 GbE à 32 ports unique 1.6 Tb / s 800 Gb / s 800 Gb / s
Arbre gras, 1:1 (bissection complète) 3.2 Tb / s 1.6 Tb / s 1.6 Tb / s
Arbre gras, sursouscrit 2:1 2.4 Tb / s 800 Gb / s 800 Gb / s
Libellule+ (4 groupes de 4) 2.0 Tb / s ~1.0 Tb/s ~800 Gb/s (paire la plus faible)
Tesseract 4D (sans interrupteur) 1.6 Tb / s ~800 Gb/s 800 Gb / s
Tore 3D 4×2×2 1.5 Tb / s ~600 Gb/s 600 Gb / s

Même nombre de nœuds, même débit, mais des chiffres différents selon le contexte. C'est dans ce cadre que le reste de l'article est construit.

Arbre gras, Clos, épine à feuilles — la même chose avec trois accents différents

En 1953, Charles Clos a démontré qu'un réseau multi-étages de petits commutateurs matriciels pouvait être non bloquant — toute entrée pouvant atteindre n'importe quelle sortie sans conflit — pour un coût bien inférieur à celui d'un seul commutateur matriciel géant. Tous les réseaux de centres de données modernes reposent sur une variante de ce principe. La terminologie est devenue complexe :

  • A Réseau Clos Il s'agit de la structure mathématique : étapes d'entrée, de milieu et de sortie de commutateurs plus petits.
  • A arbre gras (Charles Leiserson, 1985) est une variante de Clos où les troncs plus proches de la racine deviennent progressivement plus épais, de sorte que la largeur de bande de bissection est proportionnelle à N.
  • A plié replie l'étage de sortie sur l'étage d'entrée. A épine en feuille Il s'agit d'un Clos plié à deux niveaux. Un Clos plié à trois niveaux, avec feuille, arête et super-arête, est ce que la plupart des gens appellent en pratique un arbre gras.
Colonne vertébrale 1 Colonne vertébrale 2 Colonne vertébrale 3 Colonne vertébrale 4 Feuille 1 Feuille 2 Feuille 3 Feuille 4

Architecture feuille-épine à deux niveaux : chaque feuille est connectée à chaque épine. La communication entre deux nœuds quelconques s’effectue en deux sauts seulement. La bissection complète garantit l’absence de sursouscription au niveau de l’épine.

Chaque feuille est connectée à chaque colonne vertébrale. Le trafic de type « tout à tout » s'effectue au maximum feuille → colonne vertébrale → feuille, soit deux sauts. Avec une bande passante suffisante sur la colonne vertébrale, le réseau est non bloquant : chaque nœud peut communiquer simultanément avec tous les autres à la vitesse de la ligne.

Le taux de sursouscription C'est le paramètre qui détermine le coût. Si chaque nœud dispose de 32 liaisons descendantes de 100 GbE (3.2 Tb/s vers le rack) et de 8 liaisons montantes de 100 GbE (800 Gb/s hors du rack), le taux de sursouscription est de : 4:1 — quatre fois plus de bande passante entrante que de bande passante sortante. Bisection complète signifie 1:1 : autant de liaison montante que de liaison descendante. 2:1 est courant dans les centres de données à usage général. 1:1 (bissection complète) est la base de référence du cluster d'IA.

Configuration Liaisons montantes Leaf Nombre de vertèbres Coût approximatif du commutateur et de l'optique (2026) Bisection BW
Commutateur 400 GbE à 64 ports (un rack) n/a 1 ~50 XNUMX $ 12.8 Tb/s (un rack)
2 niveaux de feuilles et d'épines, sursouscrite à 4:1 8× 100 GbE 2× 32 ports ~120 XNUMX $ 800 Gb / s
2 niveaux de feuilles et d'épines, sursouscrite à 2:1 16× 100 GbE 4× 32 ports ~180 XNUMX $ 1.6 Tb / s
2 niveaux d'épine foliaire, bissection complète (1:1) 32× 100 GbE 8× 32 ports ~280 XNUMX $ 3.2 Tb / s
Architecture à deux niveaux, liaisons montantes 400 GbE, bissection complète 8× 400 GbE 4× 32 ports ~220 XNUMX $ 3.2 Tbit/s, moins de câbles

Le coût double quasiment lorsqu'on passe d'un ratio de 4:1 à 1:1, car on achète deux fois plus de ports spine et deux fois plus d'optiques. C'est pourquoi tous les clusters d'IA sérieux paient ce prix : La sursouscription détruit tout le débit de réduction. Un système de réduction synchronisé à 8 flux sur une structure sursouscrite de 4:1 ne fonctionne pas à un quart de sa vitesse — il s'effondre sous la contre-pression du PFC (N07et peut perdre en pratique 60 à 80 % du débit théorique. Le calcul dit « diviser par 4 ». En réalité, il faut plutôt diviser par 5 à 10.

L'architecture de référence DGX SuperPOD de NVIDIA spécifie une architecture en arbre gras à trois niveaux avec dichotomie complète sur Quantum-2 NDR InfiniBand à 400 Gbit/s par port. Les clusters de formation RoCE publiés par Meta et la gamme Azure ND de Microsoft adoptent la même architecture sur Spectrum-X Ethernet. L'industrie s'est ralliée à l'arbre gras de bissection complète pour l'entraînement de l'IA, et l'évolution de 2024 à 2026 consiste à élargir l'arbre de transmission (400 GbE → 800 GbE par port) ou à l'optimiser pour les rails (section suivante), sans modifier la topologie fondamentale.

Arbre gras optimisé pour les rails — le dialecte spécifique à l'IA

L'arbre de décision standard traite chaque carte réseau de la même manière. L'entraînement de l'IA prend en compte… qui La carte réseau du GPU envoie qui gradient, car les schémas de circulation ne sont pas uniformes. optimisé pour le rail Cette variante attribue chaque GPU d'un nœud à un « rail » spécifique — un chemin feuille-épine dédié — et garantit que le i-ème GPU de chaque nœud ne communique qu'avec le i-ème GPU de chaque autre nœud via le i-ème rail.

Nœud 1 GPU0 GPU1 GPU2 GPU3 Rail 0 Rail 1 Rail 2 Rail 3 Colonne vertébrale 0 Colonne vertébrale 1 Colonne vertébrale 2 Colonne vertébrale 3 8 arbres gras indépendants, un par emplacement GPU (Rail). Allreduce sur GPU N utilise Rail N uniquement — zéro ECMP collision entre les rails.

Architecture optimisée pour Rails : chaque emplacement GPU est associé à un plan spine indépendant dédié. L’anneau Allreduce sur le GPU 3 utilise uniquement Rail 3.

Huit arbres gras indépendants à deux niveaux, un par emplacement GPU. L'anneau Allreduce sur le GPU 3, réparti sur 16 nœuds, utilise uniquement Le rail 3 ne croise jamais les autres rails. Avantages : aucune collision ECMP entre les rails, routage simplifié, nombre de commutateurs par plan réduit. Inconvénient : une tâche s'étendant sur plusieurs emplacements GPU (parallélisme tensoriel au sein d'un nœud, parallélisme de données entre nœuds) est de toute façon répartie sur les rails par NCCL. La topologie n'est donc utile que si la charge de travail est alignée. Pour le parallélisme de données et la prise en compte des rails par NCCL, c'est un avantage indéniable ; pour le parallélisme tensoriel s'étendant sur plusieurs rails, le gain est nul.

Libellule et Libellule+ — quand vous n'avez pas les moyens de vous offrir un arbre de grande taille.

Le coût d'une architecture « fat tree » augmente approximativement comme N log N — chaque doublement du nombre de nœuds nécessite une bande passante plus importante pour le réseau dorsal, et le troisième niveau double le nombre de commutateurs par point de terminaison. Pour 1 024 nœuds, une architecture « fat tree » à trois niveaux non bloquante est réalisable. À partir de 10 000 nœuds, le nombre de commutateurs et le coût des équipements optiques deviennent prohibitifs. Dragonfly, proposé par John Kim, William Dally et al. en 2008, a été spécifiquement conçu pour dépasser cette limite.

L'idée : regrouper les nœuds en clusters groupesAu sein d'un groupe, tous les commutateurs sont densément connectés (souvent un petit Clos). Entre les groupes, chaque groupe possède une liaison directe avec tous les autres. Il en résulte un réseau avec diamètre 3 (saut local au groupe, saut inter-groupe, saut local au groupe) qui s'adapte à un nombre énorme de nœuds avec beaucoup moins de câbles longue distance que le fat-tree.

Groupe A sss sss intra-groupe Groupe B sss sss intra-groupe Groupe C sss sss intra-groupe Groupe D sss sss intra-groupe Liens globaux (chaque paire de groupes est directement connectée)

Libellule : réseau Clos dense au sein d’un même groupe, une liaison globale par paire de groupes. Diamètre : 3. Peut gérer plus de 1 000 nœuds avec moins de câbles longue distance que le réseau Fat Tree.

La grosse économie est câblage optiqueLes liaisons optiques longue distance entre les racks représentent la part la plus importante du coût d'une architecture « fat tree ». Dragonfly les remplace par une liaison « fat tree » par paire de groupes, et non par combinaison feuille-épine. Pour un cluster de G groupes de S nœuds chacun, l'architecture « fat tree » nécessite environ G × S × log(G × S) câbles ; Dragonfly, quant à lui, requiert G(G − 1)/2 câbles inter-groupes, auxquels s'ajoute le réseau par groupe. Avec G = 32 groupes de 32 nœuds (soit 1024 câbles au total), le nombre de câbles longue distance est réduit d'un ordre de grandeur environ.

Libellule+ (Mellanox, 2017) affine ce modèle pour InfiniBand. L'infrastructure intra-groupe devient un petit Clos bipartite, ce qui permet d'éviter le recâblage lors de l'extension du groupe, et les liaisons inter-groupes utilisent un routage adaptatif pour contourner les groupes congestionnés. Voici la topologie utilisée dans frontière (ORNL, AMD MI250X exascale) et El Capitan (LLNL, MI300A) — tous deux câblés avec des commutateurs HPE Slingshot-11 dans une configuration en forme de libellule, diamètre maximal de trois sauts, 12.8 Tb/s par commutateur.

Le hic, c'est que mode de défaillance pour les petits travaux qui s'étendent sur plusieurs groupesDans une architecture en arbre gras, deux nœuds situés aux extrémités opposées du cluster partagent la même bande passante de bisection que deux nœuds distants d'un rack (modulo le nombre de sauts). Dans une architecture en libellule, deux nœuds appartenant à des groupes différents partagent leur liaison inter-groupes avec tous les autres flux inter-groupes. Si votre tâche d'entraînement sur 16 GPU est répartie sur 8 nœuds du groupe A et 8 du groupe B, vous partagez cette liaison inter-groupes avec tous les autres flux répartis sur la même paire de nœuds. Le routage adaptatif atténue les problèmes, mais ne les élimine pas complètement.

Implications pratiques : Dragonfly fonctionne à merveille pour les problèmes de grande taille (plus de 1000 nœuds, tâches dimensionnées pour remplir les groupes) et moins bien pour les clusters de taille moyenne avec des tâches diverses de petite taille. Cette topologie est inadaptée à un cluster d'entraînement de 16 nœuds ; l'architecture fat-tree est plus économique et plus rapide à cette échelle. En revanche, elle est parfaitement adaptée à un supercalculateur de 1 024 nœuds effectuant des tâches mixtes.

Tesseract — l'hypercube 4D

Un tesseract est un hypercube à 4 dimensions : 16 sommets, chacun connecté à exactement 4 voisins, de diamètre 4 (plus long chemin entre deux nœuds quelconques). Généralisez à k dimensions et vous obtenez un cube k: 2k nœuds, chacun avec k liens directs, diamètre k. Le routage par distance de Hamming — XOR adresses source et destination, inversion d'un bit à la fois — est trivialement déterministe et équilibré en charge sous trafic aléatoire.

1000 1001 1010 1011 1100 1101 1110 1111 0000 0001 0010 0011 0100 0101 0110 0111

Tesseract (hypercube 4D) : 16 nœuds, chacun avec 4 voisins. Les traits pleins représentent les arêtes du cube 3D ; les traits pointillés, les liens de la 4e dimension. Diamètre : 4. Chaque étiquette de nœud est une adresse de 4 bits ; les voisins diffèrent d’un seul bit.

Les topologies hypercubiques ont dominé le calcul massivement parallèle des années 1980. Machine de connexion CM-2 (Thinking Machines, 1987) était composé de 65 536 nœuds câblés en un hypercube à 12 dimensions. Intel iPSC/2 J'ai exécuté des hypercubes 7D. CM-5 (Thinking Machines, 1991) ont abandonné les hypercubes au profit des arbres gras parce que l'approche hypercube ne s'adaptait pas correctement au-delà d'environ 1024 nœuds — chaque nouvelle dimension double le nombre de nœuds et nécessite le recâblage de chaque nœud existant.

En 2026, le terme « tesseract » apparaît encore à trois endroits qu'il convient de distinguer :

  1. En tant que nom de système HPC de recherche / DiRAC. Le cluster DiRAC Tesseract d'EPCC (Édimbourg) est un cluster HPE SGI 8600 de 1 476 nœuds utilisant Intel Omni-Path. « Tesseract » est un terme marketing ; l'architecture est en réalité plus proche de Fat Tree.
  2. En tant que terme de recherche « plan de contrôle SDN » (Tesseract : un plan de contrôle 4D, Yan et al.). Sans rapport avec la topologie physique.
  3. Comme la topologie sous-jacente des grappes d'accélérateurs compacts sans commutateur. Un cluster de 16 nœuds câblé comme un hypercube 4D littéral présente des propriétés intéressantes : chaque nœud possède exactement 4 cartes réseau, il n’y a pas de commutateur central, le routage est déterministe et le diamètre est de 4. Nous abordons ce sujet en détail dans… N05 (topologies sans commutateur).

Ce qu'offre un tesseract en 2026 : absence de surcoût lié aux commutateurs, routage déterministe via XOR basé sur la distance de Hamming et faible diamètre (log₂(N)). Ses difficultés : N fixe (doit être une puissance de 2), complexité du câblage croissante avec la dimension, nombre de cartes réseau par nœud égal à k et les réseaux d'IA collectifs modernes (anneau/arbre NCCL) n'exploitent pas nativement la structure hypercube.

Torus — le survivant dans deux coins spécifiques

Le n-cube k-aire généralise l'hypercube : au lieu d'une adresse binaire avec un lien par dimension, on utilise une grille k × k × k avec boucle. Un tore 3D a chaque nœud connecté à 6 voisins (±x, ±y, ±z). Un tore 6D a 12 voisins.

IBM Blue Gene/L et /P Fonctionnant sur un tore 3D, il pouvait s'étendre à des centaines de milliers de nœuds, chaque nœud ne disposant que de 6 liaisons à haut débit. Tofu Fujitsu (l'interconnexion de l'ordinateur K, 2011) a généralisé cela à un maille/tore 6D — 158 976 nœuds sur Fugaku (actifs jusqu'en 2026), disposés en 24×23×24×2×3×2.

Moteur à l'échelle de la plaquette Cerebras Utilise un tore 2D sur la plaquette : chaque élément de traitement a 4 voisins, avec un enroulement, environ 1 ns par saut. Cela fonctionne car les pistes sur la plaquette sont quasiment libres ; ce ne serait pas le cas avec des câbles hors plaquette.

Pourquoi Torus échoue partout ailleurs : chemins asymétriques et comportement inadapté aux charges de travail d'IA non uniformes. Les charges de travail d'IA modernes (anneau/arbre NCCL, algorithmes hiérarchiques de NVIDIA) supposent une bande passante uniforme pour les communications de n'importe quel nœud. Torus ne respecte pas cette hypothèse. En 2026, le tore survit à trois endroits.L'interconnexion sur puce de Cerebras, Fujitsu Fugaku et ses successeurs, ainsi que les nœuds SXM via NVSwitch, sont des exemples de solutions utilisées. En dehors de ces niches, tous les nouveaux clusters d'IA prévus pour 2025-2026 sont basés sur Clos.

Tableau de Comparaison

topologie Diamètre Bisection BW (16 nœuds, 100 GbE) Interrupteurs requis Câbles (environ) Rapport coût/bois gras 1:1 Modèle de croissance
Interrupteur unique 1 800 Gb/s (limité par le commutateur) 1× 32 ports 16 0.3 × Limite maximale au niveau du commutateur radix
Arbre gras 1:1 (bissection complète) 2 1.6 Tb / s 2 épines + 2 feuilles 64 1.0 × Ajouter des feuilles / des épines
Arbre gras 2:1 2 800 Gb / s 2 épines + 2 feuilles 48 0.7 × Ajouter des feuilles
Libellule+ 3 800 Gb/s (limité par paire de groupes) 4 (2 par groupe) 32-40 0.6× à 16°N ; bascule au-dessus de 64°N Ajouter des groupes
Tesseract 4D (sans interrupteur) 4 ~800 Gb/s (effectif) 0 32 0.4 × Double en ajoutant un dim
tore 3D (4×2×2, sans interrupteur) 4 ~600 Gb/s 0 48 0.5 × Toute taille rectangulaire

Liaison montante du cluster — comment la topologie interagit avec le monde extérieur

Un réseau commuté est une île. Il doit se connecter au réseau d'entreprise (registres de modèles, stockage de données, S3, télémétrie), aux postes de travail des développeurs (SSH, Jupyter, copie des points de contrôle) et aux autres clusters (transfert entraînement → inférence). Cette connexion est le liaison montante du cluster.

Deux modèles, avec des conséquences très différentes :

Point de liaison montante unique. Deux commutateurs centraux (ou un routeur de liaison montante dédié) centralisent toute la connectivité externe. Simples à configurer en pare-feu, à limiter le débit et à surveiller. Mode de défaillance : cette liaison constitue un point de défaillance unique ; sa saturation (par exemple, une copie importante d'un point de contrôle ou le téléchargement d'un fragment de données de 10 Go) affecte simultanément tous les nœuds.

Liaison montante distribuée. Chaque terminal périphérique dispose d'une liaison montante distincte vers le réseau du campus, souvent plus lente (25 GbE) en plus du réseau principal (100 GbE). Les extractions de données et le trafic externe restent localisés au sein du terminal périphérique, évitant ainsi toute congestion du réseau interne. En cas de défaillance : chaque terminal périphérique constitue une barrière de sécurité, la mise en place du pare-feu est beaucoup plus complexe et la surveillance est plus difficile.

Pour la configuration de base de Kentino (cluster d'entraînement de 4 à 16 nœuds), un seul point de liaison montante est la solution optimale. L'infrastructure interne est exclusivement RDMA (RoCE ou InfiniBand), optimisée pour une faible latence et un fonctionnement sans perte. La liaison montante est de type Ethernet standard, TCP, avec une QoS classique. Ne pas Placez le stockage des objets de données sur la même infrastructure sans perte que le GPU allreduce ; un client S3 défaillant ne devrait pas pouvoir déclencher de contre-pression PFC sur le trafic d'entraînement. Deux infrastructures : un plan de données (RDMA sans perte) et un plan de gestion/liaison montante (TCP avec perte). N08 décrit la mise en place pratique.

L'avis honnête de Kentino

La plupart des clients de Kentino achètent entre 1 et 4 nœuds. À cette échelle :

  • 1 nœud. Pas de question de topologie. PCIe à l'intérieur du boîtier (K07), une carte réseau de gestion 25 GbE sortie, terminé.
  • 2 nœuds. Un câble direct relie deux cartes réseau RDMA. Pas de commutateur. Aucune topologie à choisir.
  • 3 à 4 nœuds. Un seul commutateur 100 GbE à 32 ports gère toutes les connexions entre elles avec une dichotomie complète pour un coût total de 30 000 à 50 000 $. Aucune topologie n'est encore disponible.

La discussion sur la topologie commence à Nœuds 8, lorsque le nombre de ports d'un commutateur devient insuffisant et devient obligatoire à Nœuds 16En dessous de ce seuil, la bonne réponse est : « Un bon commutateur, une bisection complète sur chaque port, et passez à autre chose. » Au-dessus, la bonne réponse est : « Une architecture leaf-spine à deux niveaux, 100 ou 200 GbE par nœud, une bisection complète (1:1), et ne touchez jamais au bouton de sursouscription, sauf si on vous y oblige. »

Dragonfly+ est la solution idéale pour les problèmes de taille hyperscaler. Tesseract/hypercube est une option intéressante sans commutation pour les clusters compacts (N05Torus est un choix propriétaire pour les opérateurs HPC avec des charges de travail sensibles à la topologie. Pour tous les autres utilisateurs dans la même gamme de prix que Kentino, l'arbre gras est la norme. Utilisez la bissection complète si votre budget le permet ; 2:1 sinon ; jamais 4:1 pour l'entraînement de l'IA.

Que faire ensuite

Si vous dimensionnez un tissu commuté pour un véritable groupe :

  1. Notez le nombre de nœuds, le nombre de GPU par nœud et le débit de ligne par carte réseau. Multipliez. Divisez par 2. Vous obtiendrez ainsi le nombre de bissection cible.
  2. Décidez si vos tâches couvrent l'ensemble du cluster ou se limitent à une seule baie. Les tâches locales au rack tolèrent la sursouscription. Les tâches s'étendant sur tout le cluster ne la tolèrent pas.
  3. Courir nccl-tests/all_reduce_perf sur une configuration temporaire en arbre gras avant de s'engager dans le passage des câbles. Si une configuration allreduce à 8 nœuds perd déjà 20 % de la bande passante théorique du bus, vous avez un problème différent de celui de la topologie.
  4. N'optimisez pas pour les 5 prochaines années. Achetez le groupement dont vous avez besoin cette année, avec une stratégie d'expansion claire. La topologie « arbre gras à feuilles et épines » est la plus économique pour une croissance progressive.
  5. Adaptez la fréquence de liaison montante à votre débit d'ingestion de données., et non à la vitesse interne du réseau. La plupart des clusters nécessitent un débit sortant de 25 à 100 GbE, et non de 400.
  6. Deux tissus, toujours. Le plan de données et le plan de gestion sont séparés, même avec 4 nœuds.

Les pistes suivantes de ce morceau vont plus loin : N05 couvre les topologies sans commutateur (les options tesseract et tore lorsque vous ne souhaitez vraiment aucun commutateur) ; N06 analyse en détail l'origine de chaque microseconde de latence une fois le réseau opérationnel ; N07 couvre le travail de routage et de contrôle de la congestion qui détermine si votre belle topologie fonctionne réellement ; N08 il s'agit de la configuration pratique du RDMA et de la conception de la liaison montante en cluster.


Ceci fait partie du Kentino Wiki, une série de référence sur l'intelligence artificielle, la robotique et les systèmes qui les connectent. Commentaires et corrections bienvenus. info@kentino.com.