Gestion thermique et flux d'air dans les configurations de serveurs d'IA multi-GPU
Du point de vue thermique, un serveur d'IA multi-GPU est comparable à un appareil de chauffage industriel qui effectue occasionnellement des calculs. Un châssis équipé de 4 RTX 5090, sous charge soutenue, dégage 2.4 kW de chaleur en continu ; un châssis équipé de 8 RTX 5090 en dégage 5 kW. Cette chaleur ne se dissipe pas d'elle-même : elle se dépose sur la puce graphique, les VRM, les modules de mémoire, puis se propage dans l'air que le châssis peut évacuer par l'arrière. Si le flux d'air est insuffisant face à la consommation électrique, les processeurs réduisent leur fréquence, ce qui, sur un serveur d'inférence, double la latence des jetons et divise par deux le débit, sans bruit. La plupart des ralentissements constatés sur les serveurs GPU sont dus à des problèmes thermiques, et non logiciels. Ceci concerne l'aspect ventilation de la configuration, associé à… W04 sur l'alimentation.
La chaleur, c'est simplement de la puissance, en d'autres termes.
Chaque watt consommé par un GPU est dissipé sous forme de chaleur ; la carte n'effectue aucun travail mécanique, il n'y a donc aucun facteur d'efficacité. Les TDP que nous prenons en compte pour le dimensionnement sont les suivants :
| GPU | TDP soutenu | Bouchon dur | Plafond à points chauds | Cible de l'accélérateur |
|---|---|---|---|---|
| RTX 5090 (FE / carte partenaire) | 575 W | W ~ 600 | ~95 °C (silicium) | bord à 90 °C |
| RTX 4090 | 450 W | W ~ 500 | ~ 95 ° C | bord à 83 °C |
| Station de travail Blackwell RTX Pro 6000 | 600 W | 600 W | ~ 90 ° C | bord à 88 °C |
| RTX Pro 6000 Blackwell Max-Q | 300 W | 300 W | ~ 85 ° C | bord à 85 °C |
| L40 | 300 W | 300 W | ~ 87 ° C | bord à 87 °C |
| L4 | 72 W | 72 W | ~ 87 ° C | bord à 87 °C |
| Intel Arc Pro B70 32 Go | 200 W | 225 W | ~ 90 ° C | bord à 90 °C |
Deux points importants à prendre en compte pour les décisions de construction. NVIDIA a relevé le seuil de limitation de fréquence du 5090 à environ 90 °C. (contre 83 °C sur la 4090) — la puce maintient des fréquences d'horloge maximales plus longtemps avec le même flux d'air, mais le silicium chauffe davantage, ce qui est important pour les déploiements 24h/24 et 7j/7. Les cartes pour stations de travail et centres de données (Pro 6000, L40, L4) conservent rigoureusement leur TDP nominal. — Leur consommation ne dépasse pas le plafond. La consommation des cartes grand public explose. Il est plus facile de gérer la consommation des stations de travail de manière prévisible ; celle des cartes grand public est plus susceptible d’être accidentellement sursouscrite.
Les seuils d'accélération et leur coût
L'accélération est progressive, pas instantanée. Sur les puces de type Blackwell :
| Température de bord | Comportement |
|---|---|
| 60-75 ° C | pleine puissance, sans accélérer |
| 75-85 ° C | Légère variation d'horloge, boost quasi maximal |
| 85-90 ° C | Réduction de la capacité de suralimentation, perte de 5 à 10 % |
| 90-95 ° C | Accélération brutale, perte de fréquence d'horloge de 15 à 25 % |
| > 95 ° C | Limitation agressive de la vitesse, limitation de la vitesse en fonction de la mémoire, arrêt d'urgence éventuel |
Une charge de travail d'inférence 5090, consommant 590 W à froid, chute à environ 510 W lorsque le capteur de température atteint 90 °C, soit une perte de 15 % de jetons par seconde pour une charge de travail vLLM 70B. Cette différence correspond à l'atteinte ou non d'un objectif de niveau de service (SLO). Une carte fraîchement allumée atteint son premier point de limitation de performance après 60 à 120 secondes de charge soutenue. Les benchmarks de moins de 5 minutes surestiment le débit soutenu de 10 à 20 %, ce qui explique en grande partie l'écart entre les chiffres publiés et la réalité en production.
Flux d'air de l'avant vers l'arrière du rack — la seule architecture sensée pour un fonctionnement 24h/24 et 7j/7.
Les systèmes de refroidissement des GPU se divisent en trois catégories : à air libre/tour axiale (cartes graphiques grand public pour jeux, évacuation de l’air chaud vers l’intérieur du boîtier), à turbine/radiale (cartes de référence, évacuation de l’air chaud par la plaque d’E/S) et passifs pour centres de données (L4, L40 — sans ventilateur, les ventilateurs du boîtier propulsent l’air à travers les ailettes). Pour une configuration à 4 ou 8 GPU fonctionnant 24 h/24 et 7 j/7, Seules les topologies à soufflerie et passives fonctionnent dans un châssis dense.Dans un boîtier 4U avec des cartes empilées verticalement, une conception ouverte évacue la chaleur vers l'entrée d'air de la carte supérieure ; la carte du dessus se trouve dans un air à 50-60 °C et ralentit en quelques minutes.
Les châssis Kentino 4U et 8U utilisent un flux d'air industriel d'avant en arrière avec des ventilateurs de 120 mm poussant une pression statique élevée sur les GPU. Les cartes graphiques sont refroidies par des turbines passives ou par des conduits d'air dirigés activement depuis le châssis. Le châssis lui-même fait office de refroidisseur.
Flux d'air de l'avant vers l'arrière du rack : entrée d'air froid → GPU dans la colonne de flux d'air → extraction d'air chaud. C'est ce qui permet de maintenir les 5090 sous les 85 °C avec une température d'entrée d'air de 22 °C.
Pression statique en fonction du débit d'air (CFM)
Les fiches techniques des ventilateurs indiquent le débit d'air (CFM) et la pression statique (mm H2O). Dans un boîtier ouvert, le CFM est prépondérant ; dans un boîtier 4U avec des dissipateurs thermiques denses, des risers, des faisceaux de câbles et des ailettes de refroidissement passif pour GPU sur le trajet du flux d'air, La pression statique domineUn ventilateur de boîtier grand public standard de 120 mm offre un débit d'air de 70 CFM à 1.2 mm H₂O ; un ventilateur de serveur industriel de 120 mm (Delta, Sanyo Denki, Nidec, San Ace) offre un débit d'air de 110 CFM à 8–12 mm H₂O. L'écart de débit est de 60 % ; l'écart de pression statique est de 7 à 10 fois. Dans un châssis à ailettes denses, le ventilateur de boîtier fournit environ 20 CFM de débit réel ; le ventilateur industriel, 80 à 90 CFM. C'est pourquoi le châssis K-AI est bruyant (55–62 dBA en façade) et est destiné à être installé dans une baie ou une armoire électrique, et non sur un bureau.
Règles : débit d'air traversant le châssis d'environ 40 à 50 CFM par kW de chaleur du GPU ; pression statique d'entrée ≥ 5 mm H2O ; le refroidisseur du processeur doit être de type tour avant-arrière, et non à flux supérieur.
Gestion de la pression, des filtres et des câbles
La pression du châssis correspond au débit d'air d'admission par rapport au débit d'air d'échappement. Une pression positive (plus d'air admis) provoque des fuites d'air par tous les interstices et retient la poussière au niveau du filtre avant ; une pression négative aspire l'air non filtré par tous les joints. Le Kentino 4U présente une pression légèrement positive par conception : trois entrées d'air, une sortie arrière et une sortie d'alimentation. Les filtres sont importants : Un filtre d'admission obstrué à 50 % réduit le flux d'air du châssis de 30 à 40 %. Il est recommandé de l'inspecter tous les 90 jours au bureau et tous les 30 jours en laboratoire. La plupart des signalements de « serveur plus chaud après six mois » sont dus à des problèmes de filtre, et non à une dégradation du silicium.
Les câbles situés dans la colonne d'air avant-arrière constituent le problème thermique le plus sous-estimé dans les configurations multi-GPU. Un câble ATX 24 broches placé en travers de l'entrée d'air du GPU 4 réduit le flux d'air effectif de cette carte de 25 à 40 % et augmente sa température de 5 à 8 °C par rapport aux autres cartes de la même série. Faites passer l'alimentation et le câble EPS derrière le plateau de la carte mère, jamais au-dessus du flux d'air ; aucun câble ne doit passer devant le centre du GPU. W04 Cet article explique pourquoi l'utilisation d'une alimentation double simplifie le câblage d'une configuration à 4 GPU : la masse des câbles est réduite de moitié de chaque côté. Le choix d'une alimentation double est motivé autant par des considérations thermiques qu'électriques.
Espacement en U du rack et échappement chaud
Un système 4U de 2.4 kW évacue de l'air chaud à une température de 35 à 45 °C avec un débit d'air supérieur à 100 CFM ; un système 8U de 5 kW évacue de l'air chaud à une température de 40 à 50 °C avec un débit d'air supérieur à 200 CFM. L'obturation des emplacements U inutilisés est indispensable dans toute baie fermée ; sans cela, l'air chaud évacué est renvoyé vers l'entrée d'air froid. Les baies fermées placées contre un mur représentent le pire cas de figure : les unités supérieures sont de 8 à 12 °C plus chaudes que les inférieures. Dans les baies non confinées, un emplacement U vide au-dessus et en dessous de chaque serveur multi-GPU permet de gagner 5 à 8 °C au niveau de l'entrée d'air. Le confinement de l'allée chaude est pertinent pour quatre baies, mais surdimensionné pour une seule.
Mesures réelles — 4 et 8 GPU sous charge soutenue
Exécutions de tests internes Kentino, inférence vLLM 70B Q4, état stationnaire de 30 min, salle à 22 °C ± 1 °C.
| Se construisent | Prise | GPU edge | bord du processeur | Échappement | Étrangler |
|---|---|---|---|---|---|
| 4× RTX 5090 (4U, EPYC 9354) | 23 ° C | 76-84 ° C | 68 ° C | 41 ° C | Non |
| 8× RTX 5090 (8U, 2× EPYC 9554) | 24 ° C | 78-86 ° C | 70-72 ° C | 46 ° C | |
| Station de travail 4× Pro 6000 (4U) | 23 ° C | 71-77 ° C | 67 ° C | 43 ° C | Non |
La configuration à quatre GPU 5090 est l'objectif de conception : une température de 8 °C répartie sur l'ensemble du banc, avec une fréquence boost maintenue à 30 MHz de la fréquence nominale. La configuration à huit GPU 5090 est plus proche de la limite ; le GPU 8, à 86 °C, est à la limite de la plage de fréquences boost. Dans les pièces dont la température dépasse 24 °C, une configuration avec 8 cartes 5090 commence à perdre en puissance sur les cartes les plus à l'arrière. La configuration à 8 GPU est celle où la température ambiante de la salle d'installation devient un paramètre de conception primordial. La station de travail 4x Pro 6000 fonctionne à une température plus basse, à consommation égale, grâce à sa limite de 600 W et à son système de refroidissement à double flux qui offrent une enveloppe thermique plus stable que celle du modèle grand public 5090, sujet aux pics de température transitoires.
Points chauds au-delà de la puce du GPU
Le nombre nvidia-smi Le capteur de bord indique la température maximale : le bord de la mémoire GDDR ou le bord du silicium, selon la carte. Ce n’est pas l’élément le plus chaud du boîtier. Trois autres points sont importants :
VRMs En charge soutenue, la température du VRM est généralement de 10 à 20 °C supérieure à celle de la puce, avec une température maximale d'environ 110 °C. Sur une 5090 alimentée à 575 W, la télémétrie de la carte mère indique des températures de VRM comprises entre 85 et 95 °C. Les cartes dont le refroidissement du VRM est insuffisant limitent les performances en fonction de la température du VRM avant même que celle-ci n'atteigne le silicium — un phénomène invisible pour les autres composants. nvidia-smi --query-gpu=temperature.gpuCela se manifeste uniquement par une chute de fréquence inexpliquée. Si la carte graphique reste froide d'après le capteur GPU mais que sa fréquence boost diminue, suspectez le VRM.
Mémoire GDDR7 La 5090 chauffe beaucoup. Lors d'une inférence soutenue avec un trafic d'activation important, la température de la jonction mémoire atteint 95 à 100 °C. La carte réduit d'abord la fréquence de la mémoire (perte de bande passante de 3 à 5 %), puis celle du GPU. Pour les charges de travail gourmandes en mémoire, c'est la température de la mémoire, et non celle du GPU, qui constitue le facteur limitant.
SSD NVMe Le problème, c'est la surchauffe silencieuse. Un disque PCIe 5.0 effectuant des lectures soutenues (chargement de 70 octets de poids, flux de données) atteint 70 à 80 °C en quelques secondes sans refroidissement actif. Au-delà de 75 °C environ, le contrôleur bride la fréquence et la bande passante en lecture est divisée par deux. Le chargement d'un modèle qui « devrait prendre 8 secondes » en prend 16, et personne ne sait pourquoi. Chaque configuration K-AI est livrée avec un disque NVMe équipé de dissipateurs thermiques dans le flux d'air du châssis.
Pour surveiller tout ce qui compte en production :
nvidia-smi --query-gpu=index,temperature.gpu,temperature.memory,clocks.gr,clocks.mem,power.draw \
--format=csv -l 5
Pour NVMe, nvme smart-log /dev/nvme0 Signale les températures du contrôleur et du composite ; alarme à 70 °C pour le composite. La température du VRM est affichée sur les cartes Pro 6000 via DCGM (dcgm-exporter pour Prometheus) ; sur les cartes grand public, il est spécifique au fabricant et n'apparaît souvent que dans les utilitaires Windows — une des raisons pour lesquelles nous préférons les cartes pour stations de travail en production à long terme.
Température ambiante et enveloppe ASHRAE
La norme ASHRAE TC9.9 définit les plages thermiques à respecter pour la conception des centres de données. La classe A1 (colocation de niveau 1) recommande une température d'entrée de 18 à 27 °C ; la classe A2 (entreprise générale) étend cette plage à 10-35 °C. La gamme K-AI est conçue pour la classe A2, mais la plage de fonctionnement optimal pour un châssis 4× ou 8× 5090 se situe en classe A1 : la température d'entrée de conception est de 22 °C, et la température maximale pratique avant l'apparition d'une perte de puissance est de 26 °C. L'humidité est également un facteur important : l'ASHRAE recommande une humidité relative de 20 à 80 % sans condensation. Visez une humidité relative de 40 à 60 % toute l'année.
| Se construisent | Ambiance recommandée | Plafond (sans accélérateur) | Plafond dur (à n'importe quelle vitesse) |
|---|---|---|---|
| 4 × 4090 | 18-24 ° C | 26 ° C | 30 ° C |
| 4 × 5090 | 18-22 ° C | 24 ° C | 28 ° C |
| 4× Pro 6000 | 18-25 ° C | 27 ° C | 32 ° C |
| 8 × 5090 | 18-22 ° C | 23 ° C | 26 ° C |
| 8× Pro 6000 | 18-24 ° C | 25 ° C | 29 ° C |
| 8× L40 | 18-26 ° C | 28 ° C | 32 ° C |
| 8× L4 | 18-28 ° C | 30 ° C | 35 ° C |
Les performances des cartes L40 et L4 expliquent leur intérêt pour les environnements de bureau : elles supportent les systèmes de climatisation classiques. Une configuration à 8 GPU 5090 nécessite une salle serveur ou une armoire électrique avec un système de refroidissement dédié, point final.
Dimensionnement des systèmes de chauffage, ventilation et climatisation en un paragraphe
La charge de refroidissement d'une pièce correspond à la consommation électrique murale continue : 1 kW = 3 412 BTU/h. Un serveur de 2.4 kW équipé de 4 GPU consomme environ 8 200 BTU/h ; un serveur de 4.5 kW équipé de 8 GPU consomme environ 15 400 BTU/h. Dimensionner le climatiseur à 1.3 fois la charge en régime permanent — Même règle de marge de sécurité que pour les alimentations. Un climatiseur split de 12 000 BTU sur un serveur de 2.4 kW fonctionne à 100 % de sa capacité et son compresseur lâche en 18 à 30 mois ; un modèle de 24 000 BTU sur la même charge fonctionne à 50 % de sa capacité et dure de 8 à 10 ans. Le refroidissement de précision (CRAC) devient pertinent au-delà de 10 kW ; en dessous, un climatiseur split correctement dimensionné suffit.
Format : rack 4U, rack 8U, tour
La gamme K-AI utilise trois : rack 4U pour les configurations à 4 GPU (3 ventilateurs d'entrée de 120 mm, 1 ventilateur arrière, double ATX, rack 19 pouces), rack 8U pour les configurations à 8 GPU (ventilateurs de serveur industriels, alimentation CRPS, carte mère à double processeur, densité thermique environ deux fois supérieure à celle d'un boîtier 4U), et poste de travail tour Pour les boîtiers de développement à 1 ou 2 GPU (ventilateurs PWM, adaptés aux environnements de bureau). Au-delà de 2 GPU, nous ne proposons pas de tours : un châssis vertical à 4 GPU atteint 90 °C sur la carte supérieure en seulement 20 minutes de charge soutenue. La même configuration, dans un rack 4U, reste constamment sous les 85 °C.
Refroidissement liquide : quand et pourquoi
Dans une architecture 4U bien conçue, le refroidissement par air gère environ 600 W par GPU ; au-delà, le refroidissement liquide s'impose. Un système AIO par carte réduit la température du GPU de 15 à 25 °C, mais complexifie considérablement le système, avec des risques de panne de pompe et d'évaporation silencieuse du liquide de refroidissement. Le refroidissement direct sur la puce, avec un échangeur de chaleur en façade relié au circuit d'eau glacée du bâtiment, est la solution idéale pour plus de 16 GPU par cluster. L'immersion dans un fluide diélectrique est efficace, mais coûteuse et modifie radicalement la maintenance.
Pour la gamme Kentino actuelle — châssis refroidi par air jusqu'à 600 W par carte — L'air est la bonne réponseUne configuration à quatre cartes graphiques 5090 fonctionne en continu (24 h/24 et 7 j/7) à une température de 78 à 84 °C sans limitation de fréquence, dans une allée froide à 22 °C. Le refroidissement liquide permettrait de ramener cette température à 55-65 °C et de gagner quelques pourcents de fréquence boost ; cependant, à cette échelle, le surcoût et la complexité supplémentaires ne le justifient pas.
Que faire ensuite ? – Liste de contrôle de la surveillance thermique
Si vous dimensionnez l'aspect thermique d'une salle de construction ou de déploiement :
- Ambiance froide dans la salle d'installation ? Mesurez en conditions de charge réalistes, et non un dimanche avec la climatisation à plein régime. Comparez avec le tableau des températures ambiantes ci-dessus.
- Dimensionnement du refroidissement de la salle : 1.3 fois la consommation électrique du serveur ? Un climatiseur dimensionné exactement pour correspondre à la charge fonctionne à 100 % de son cycle de service et tombe en panne en moins de deux ans.
- Où vont les gaz d'échappement chauds ? Un rack ouvert avec une allée chaude convient ; une armoire fermée sans confinement, ou un placard avec le serveur pointé vers un mur, ne convient pas.
- Cycle de service ? Un poste de développement fonctionnant à 30 % de sa charge a des besoins en refroidissement différents de ceux d'un serveur d'inférence fonctionnant 24h/24 et 7j/7.
- Filtre et plan de croissance ? Un filtre encrassé réduit silencieusement de moitié le débit d'air ; un deuxième serveur double la charge thermique. Programmez les deux.
-
Télémétrie en cours d'exécution ?
nvidia-smiInterrogé toutes les 5 s pour le GPU edge / la mémoire / les fréquences / la consommation,nvme smart-logpour les variateurs, DCGM pour VRM lorsque disponible, température ambiante + humidité dans la pile de surveillance avec alarmes à 27 °C et à l'extérieur 40–60 % HR.
La conception du châssis (flux d'air d'avant en arrière, ventilateurs industriels de 120 mm, GPU à refroidissement passif ou par turbine, gestion optimisée des câbles) est incluse de série dans chaque configuration K-AI. L'installation dans la salle et le rack relèvent de la responsabilité du client et c'est là que la plupart des problèmes rencontrés sur le terrain surviennent.
W06 (Le prochain module de la série W) couvre les niveaux de stockage — les configurations NVMe, SAS et de pool en vrac qui s'associent à ces châssis de calcul.
Ceci fait partie du Kentino Wiki, une série de référence sur l'intelligence artificielle, la robotique et les systèmes qui les connectent. Commentaires et corrections bienvenus. info@kentino.com.