Sélection de GPU pour les charges de travail d'IA : Comparaison directe des 5090, 4090, RTX Pro 6000, L40 et L4
Il n'existe pas de GPU universellement adapté à l'IA en 2026. Il existe un GPU adapté à une charge de travail, une consommation énergétique et un budget spécifiques. Choisir la mauvaise carte dans le bon boîtier est une erreur plus coûteuse que de choisir la bonne carte dans le mauvais boîtier. Cet article compare en détail la gamme Kentino, avec des données de performance réelles, une analyse objective des compromis et une méthodologie de décision que nous avons nous-mêmes utilisée avec nos clients. Nous n'ignorons pas l'existence des H100 et A100 : elles existent bel et bien, nous ne les commercialisons pas et nous préciserons dans quels cas cette différence est pertinente.
Les cartes sur la table :
- RTX 5090 — 32 Go GDDR7, 1.79 To/s, 575 W, grand public.
- RTX 4090 — 24 Go GDDR6X, 1.01 To/s, 450 W, grand public, génération précédente.
- RTX Pro 6000 Blackwell Server Edition — 96 Go GDDR7 ECC, 600 W, refroidissement passif, format serveur, pas de sorties d'affichage.
- RTX Pro 6000 Blackwell Max-Q — 96 Go GDDR7 ECC, 300 W, double emplacement, même puce que la station de travail.
- L40 — 48 Go GDDR6 ECC, 0.86 To/s, 300 W, format datacenter, ECC complet.
- L4 — 24 Go GDDR6, 0.30 To/s, 72 W, profil bas à un seul emplacement, inférence de bord.
Les spécifications qui comptent vraiment
Les fiches techniques des GPU sont denses et la plupart des chiffres n'influencent pas la décision d'achat. Trois d'entre eux, cependant, sont déterminants.
- Capacité de la VRAM. C'est binaire. Soit votre modèle correspond, soit il ne correspond pas. Le déchargement du processeur n'est pas une solution de remplacement viable (traité dans W01).
- Bande passante de la VRAM. La génération de jetons sur un transformateur est limitée par la bande passante. Les TFLOPS indiqués dans la fiche technique sont largement superflus pour l'inférence.
- Puissance et format compact durables. Une carte de 600 W dans un châssis incapable de dissiper la chaleur équivaut à une carte de 300 W dotée d'une alarme thermique. Une carte de 72 W dans un serveur 1U est différente d'une carte de 575 W dans une station de travail 4U.
| GPU | VRAM | Bande passante | TDP | Facteur de forme | ECC | Remarques |
|---|---|---|---|---|---|---|
| RTX 4090 | 24 GB GDDR6X | 1.01 TB / s | 450 W | consommateur à 3 emplacements | Non | Génération précédente, voie de réduction des coûts |
| RTX 5090 | 32 GB GDDR7 | 1.79 TB / s | 575 W | consommateur de 2 à 3 emplacements | Non | Perf/€ roi pour l'inférence |
| RTX Pro 6000 BW Max-Q | 96 GB GDDR7 | 1.79 TB / s | 300 W | Souffleur à 2 fentes | Oui | Haute densité, faible consommation d'énergie |
| RTX Pro 6000 BW Server Ed. | 96 GB GDDR7 | 1.79 TB / s | 600 W | passif à 2 emplacements | Oui | Serveur sans interface graphique |
| L40 | 48 GB GDDR6 | 0.86 TB / s | 300 W | passif à 2 emplacements | Oui | génération Ada du centre de données |
| L4 | 24 GB GDDR6 | 0.30 TB / s | 72 W | LP à 1 emplacement | Oui | Inférence Edge / 1U |
| H100 SXM (référence, non vendu) | 80 GB HBM3 | 3.35 TB / s | 700 W | SXM5 | Oui | Niveau hyperscaler |
| H200 SXM (référence, non vendu) | 141 Go HBM3e | 4.80 TB / s | 700 W | SXM5 | Oui | Le roi de la bande passante HBM |
Inférence : jetons par seconde, par modèle et par carte
La génération de jetons d'inférence, en flux unique, correspond approximativement à la bande passante divisée par la taille du modèle, multipliée par un facteur d'efficacité de pile de 0.6 à 0.8. Le tableau ci-dessous présente nos mesures effectuées sur des configurations de test avec vLLM 0.6+ et la version actuelle de llama.cpp (au deuxième trimestre 2026). INT4 sauf indication contraire. Débit en flux unique en premier ; débit agrégé par lots entre parenthèses lorsqu'il est mesurable.
| Modèle | Quant | Taille | RTX 4090 | RTX 5090 | Serveur/WS Pro 6000 BW | Pro 6000 Max-Q | L40 | L4 |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5 7B | INT4 | ~ 4 Go | 110-130 (220) | 180-220 (340) | 180-220 (340) | 170-200 (320) | 90-110 (200) | 35-45 (90) |
| Lama 3.2 13B | INT4 | ~ 7 Go | 70-85 (170) | 120-140 (250) | 120-140 (250) | 110-130 (230) | 60-75 (140) | 22-28 (60) |
| Qwen2.5 32B | INT4 | ~ 18 Go | 32-38 (90) | 55-65 (140) | 60-70 (150) | 55-65 (140) | 28-34 (80) | ne correspond pas |
| Lama 3.3 70B | INT4 | ~ 40 Go | ne convient pas aux personnes seules | nécessite 2× (24–30) | 28–34 (90) carte simple | 27-32 (85) | nécessite 2× (16–22) | ne correspond pas |
| Qwen2.5 72B | INT4 | ~ 42 Go | ne convient pas aux personnes seules | nécessite 2× (24–30) | 28–34 (90) carte simple | 27-32 (85) | nécessite 2× (16–22) | ne correspond pas |
| Qwen2.5-VL 72B | INT4 | ~46 Go+ | ne convient pas aux personnes seules | nécessite 2× (12–18) | Carte simple 18–24 | 17-22 | nécessite 2× (10–14) | ne correspond pas |
| Lama 3.1 405B | INT4 | ~ 210 Go | ne correspond pas | nécessite 8× | 4× (nœud unique) | 4× (nœud unique) | nécessite 5× | ne correspond pas |
Quelques précisions importantes. Ces valeurs correspondent à des performances typiques sur un châssis correctement refroidi, avec le modèle entièrement installé. Le TTFT (temps de chargement des transactions) à froid est principalement dû à l'allocation du cache KV et au préremplissage, et non à la bande passante. Il se situe entre 200 et 900 ms pour cette gamme de cartes. Le débit par lots diminue de façon sous-linéaire au-delà de 8 à 16 flux simultanés en raison de la contention des ressources de calcul. Si votre application est interactive (chat, assistance pas à pas), le débit mono-flux est plus important que le débit par lots. En revanche, si votre application traite des données en masse (traitement de documents, étiquetage automatique), le débit par lots est préférable.
Le bloc de quatre cartes 5090 est le pilier de notre gamme pour une bonne raison : son prix (entre 8 500 € et 14 000 € pour les cartes seules), il intègre quatre GPU dans un châssis 4U avec une ventilation adéquate et offre une puissance de traitement agrégée d'environ 12 000 tok/s sur Llama 3.3 70B INT4 sous vLLM avec parallélisme tensoriel. Une seule carte Pro 6000 Blackwell, à 8 500 €, offre environ 30 tok/s en flux unique et environ 90 tok/s en traitement par lots sur le même modèle. Pour un serveur multi-utilisateurs, les 5090 sont les plus performantes. Pour une charge de travail mono-utilisateur avec un contexte important et des modèles de plus de 64 Go, la Pro 6000 l'emporte. Il n'y a pas de solution universelle.
Là où chaque carte a réellement du sens
RTX 5090 — le roi du rapport performance/prix, avec des lignes acérées. Réponse appropriée lorsque la charge de travail consiste en une inférence, que le budget est réel mais non illimité, et que le déploiement peut tolérer deux limitations connues : l’absence de correction d’erreurs (ECC) et les transitoires de puissance typiques des produits grand public qui nécessitent une attention particulière au bloc d’alimentation et au châssis (voir W04Pour les modèles 13 et 32 bits, la 5090 offre le meilleur rapport performances/prix. Pour les modèles 70 bits, quatre 5090 en parallèle Tensor offrent un débit agrégé supérieur à celui d'une seule Pro 6000 Blackwell, pour un investissement total inférieur. Inconvénients : consommation nominale de 575 W avec des pics de consommation supérieurs à 600 W, et une capacité limitée à 32 Go par carte, ce qui impose une configuration multi-GPU pour les modèles 32 bits et plus avec un contexte élevé. À privilégier dans les cas suivants : inférence 24 h/2.4 et 7 j/7 pour les modèles 7 à 32 bits, rapport performances/prix optimal, ventilation adéquate du rack, et si la mémoire ECC n'est pas une contrainte réglementaire stricte. À éviter dans les cas suivants : mémoire ECC obligatoire, configuration mono-carte 70 bits et plus, ou si la salle ne peut pas dissiper 2,4 kW de chaleur.
RTX 4090 — baisse de prix uniquement pour les modèles précédents. En 2026, un achat stratégique. Les modèles neufs sont rares ; d'occasion et en fin de série se vendent entre 1 400 € et 1 900 €. Par carte, les performances sont environ 55 % inférieures à celles d'une 5090 pour l'inférence gourmande en mémoire (1.01 To/s contre 1.79 To/s) et la mémoire est de 24 Go contre 32 Go — les 8 Go supplémentaires sont importants car un modèle INT4 de 32 octets libère davantage d'espace pour le cache KV sur une 5090. Cela reste pertinent pour une extension d'un parc de 4090 existant avec un budget limité. Vous partez de zéro ? Optez pour des 5090.
RTX Pro 6000 Blackwell Server Edition — La reine de la VRAM pour les charges de travail exigeantes. La mémoire GDDR7 ECC de 96 Go à 1.79 To/s modifie la compatibilité avec différents modèles. Une seule carte prend en charge 72 octets INT4 Qwen2.5-VL avec un cache KV confortable pour environ 20 flux simultanés. Quatre cartes dans un même nœud prennent en charge 405 octets INT4 Llama 3.1 dans un seul châssis, sans interconnexion réseau. Refroidissement passif, conception optimisée pour une circulation d'air de l'avant vers l'arrière du rack, sans sorties vidéo, validée pour un fonctionnement 24h/24 et 7j/7. Même puce que la version Workstation, même limite de 600 W, refroidissement différent. À privilégier selon les situations suivantes : marge de manœuvre de plus de 70 octets par carte, nécessité d'une mémoire ECC, déploiement en rack avec une ventilation adéquate, formation à l'utilisation, ou encore préférence pour une configuration avec moins de cartes, mais plus performantes, en termes d'espace rack et de consommation électrique.
RTX Pro 6000 Blackwell Max-Q — haute densité sans recâblage de la pièce. Même capacité de 96 Go et débit de 1.79 To/s, avec une consommation limitée à 300 W. Quatre cartes Max-Q consomment 1.2 kW au niveau des GPU ; quatre cartes Server Edition consomment 2.4 kW. La perte de performances due à la limitation de puissance est réelle, mais inférieure au rapport puissance/consommation : la courbe de performance/puissance de Blackwell est abrupte à son extrémité supérieure, donc limiter à 300 W entraîne une perte de 20 à 30 % sur le débit d'inférence, et non de 50 %. À privilégier dans les environnements à faible consommation, lorsque vous souhaitez 96 Go par carte, lorsque la densité prime sur le débit maximal par carte, ou lorsque le niveau sonore est un critère important.
L40 — la carte d'inférence d'entreprise avec ECC et une expérience éprouvée. Génération Ada. Moins performante que Blackwell en termes de bande passante (0.86 To/s contre 1.79 To/s) et de capacité (48 Go contre 96 Go), elle est proposée au prix d'une carte dédiée aux centres de données. Ses principaux atouts résident dans sa fiabilité : mémoire ECC complète, pilotes validés, consommation soutenue de 300 W et plus de deux ans de déploiement en production. Pour les environnements où les cartes grand public sont proscrites (assurances, administrations, certains secteurs réglementés), c'est la carte idéale. En termes de rapport performances/prix, elle est moins performante que la 5090. À privilégier lorsque : la politique d'achat interdit le matériel grand public, la charge de travail tient dans 48 Go et la fiabilité 24 h/24 et 7 j/7 prime sur le rapport performances/prix.
L4 — inférence de bord, 1U, 72 W. La seule carte de cette liste qui s'intègre sans problème dans un serveur 1U, à côté de la carte mère, et la seule à consommer autant qu'un ordinateur portable. TDP de 72 W, format simple emplacement, profil bas, passif, 24 Go GDDR6 ECC, 300 Go/s. La bande passante est le facteur limitant : en flux unique 7B, elle atteint 35 à 45 tok/s, ce qui est correct sans être exceptionnel. Son utilisation est optimale en mode fan-out : 8 cœurs L4 dans un châssis 2U sur un seul hôte EPYC permettent de fournir 8 flux d'inférence 7B simultanés pour un coût total raisonnable (environ 20 000 € de cartes), avec une consommation inférieure à 700 W et une compatibilité avec tous les circuits électriques de bureau. À privilégier dans les déploiements en périphérie de réseau, les environnements 1U/2U, les contraintes de consommation, si le modèle est compatible avec 24 Go de mémoire et si le débit par watt est le critère principal.
Performance par euro : le tableau que vous ne devriez pas montrer à votre directeur financier
| GPU | Prix (€) | 7B INT4 tok/s (simple) | tok/s par 1 000 € | 70B INT4 tok/s* | 70 milliards de tok/s pour 1 000 € |
|---|---|---|---|---|---|
| RTX 4090 (stock résiduel) | ~ € 1,700 | 120 | 70.6 | nécessite 2× = 28 | 8.2 (sur la base d'un groupe de 4 cartes) |
| RTX 5090 | ~ € 2,400 | 200 | 83.3 | nécessite 2× = 28 | 5.8 (sur la base d'un groupe de 2 cartes) |
| RTX Pro 6000 BW Max-Q | ~ € 8,500 | 185 | 21.8 | 30 cartes simples | 3.5 |
| Serveur RTX Pro 6000 BW | ~ € 8,800 | 200 | 22.7 | 31 cartes simples | 3.5 |
| L40 | ~ € 7,800 | 100 | 12.8 | nécessite 2× = 19 | 1.2 (sur la base de 2 cartes) |
| L4 | ~ € 2,500 | 40 | 16.0 | ne correspond pas | n/a |
| H100 SXM (référence) | ~ € 28,000 | 220 | 7.9 | 60 cartes simples | 2.1 |
*Pour 70B INT4 : nombres par carte lorsque le modèle tient sur une seule carte ; débit agrégé à flux unique lorsque le parallélisme tensoriel multi-cartes est requis, divisé par le coût total de la carte.
La 5090 offre le meilleur rapport performances/prix pour toutes les tailles de modèles compatibles. Les cartes Pro 6000 excellent sur un autre plan : la prise en charge de modèles de classe 70B sur une seule carte élimine la latence et la complexité supplémentaires liées au parallélisme tensoriel. La L40 présente de loin le pire rapport performances/prix de ce tableau : elle coûte environ trois fois plus cher qu'une 5090 pour des performances d'inférence réduites de moitié. Son principal atout réside dans sa conformité aux exigences d'approvisionnement et sa fiabilité éprouvée depuis la génération Ada, et non dans son rapport coût/prix intrinsèque. La L4 est la championne du rapport performances/prix, notamment pour les petits modèles à faible consommation, où elle est sans concurrence.
Performance par watt : tableau destiné au gestionnaire de colocation
| GPU | TDP | 7B tok/s | tok/s par W | 70B tok/s* | 70B tok/s par W |
|---|---|---|---|---|---|
| L4 | 72 W | 40 | 0.56 | n/a | n/a |
| RTX Pro 6000 BW Max-Q | 300 W | 185 | 0.62 | 30 | 0.10 |
| L40 | 300 W | 100 | 0.33 | 19 (×2) | 0.03 |
| RTX 5090 | 575 W | 200 | 0.35 | 28 (×2) | 0.024 |
| RTX 4090 | 450 W | 120 | 0.27 | 28 (×2) | 0.031 |
| Serveur RTX Pro 6000 BW | 600 W | 200 | 0.33 | 31 | 0.052 |
| H100 SXM (référence) | 700 W | 220 | 0.31 | 60 | 0.086 |
La Max-Q offre le meilleur rapport performances/watt de cette sélection, et de loin. Limiter la consommation d'une mémoire Blackwell de 96 Go à 300 W permet de maintenir la carte dans sa plage de fonctionnement optimale, et vous obtenez un débit quasiment identique à celui de la Server Edition pour une consommation deux fois moindre. Pour les infrastructures de colocation où la consommation est mesurée et où le prix du kWh est de 0.18 € à 0.30 € en continu, la Max-Q permet de réaliser des économies substantielles sur le long terme par rapport à la Server Edition. Certains de nos clients sont passés de la Server Edition à la Max-Q précisément pour éviter de moderniser le système de refroidissement de leur bâtiment.
Notes sur la formation et le perfectionnement
L'entraînement n'est pas le positionnement principal de Kentino ; la plupart des clients achètent des solutions d'inférence. Cependant, le réglage fin est omniprésent, et le choix de la solution d'entraînement est soumis à différentes contraintes. L'entraînement complet de plus de 70 milliards de modèles n'est pas envisageable avec cette configuration ; cela nécessite 8 systèmes SXM H100/H200 ou un cloud loué, et nous le précisons. Le réglage fin LoRa de 7 à 32 milliards de modèles fonctionne parfaitement avec 4 cartes 5090 ou 4 cartes Pro 6000 BW Max-Q. Pour QLoRA de 70 milliards de modèles, il est préférable d'utiliser 2 cartes Pro 6000 BW (toutes versions confondues) plutôt que 4 cartes 5090 avec FSDP, car une carte par réplique de modèle est nettement plus simple. La règle de décision : si les entraînements durent plus de 24 heures et sont automatisés, la correction d'erreurs (ECC) est importante ; choisissez alors une carte Pro 6000 ou L40. Pour les entraînements de moins de 24 heures avec une supervision humaine, la carte 5090 est suffisante et offre un meilleur rapport qualité-prix.
Vision, langage et la question Pro 6000 vs H100
Les VLM modifient le calcul car l'empreinte d'activation est plus importante et le préremplissage (encodage d'image) est plus gourmand en ressources de calcul. Pour Qwen2.5-VL 72B INT4 (~46 Go), la Pro 6000 BW offre 18 à 24 tok/s sur une seule carte avec un préremplissage d'environ 1.4 s ; deux 5090 en parallèle tensoriel offrent 12 à 18 tok/s avec une surcharge de traitement du texte (TP) de 20 à 40 ms par jeton. Pour l'inférence robotique sur site, la Pro 6000 BW est le choix le plus judicieux car Qwen2.5-VL 72B est le modèle que les utilisateurs souhaitent réellement exécuter, et une seule carte élimine la surcharge TP. Pour les pipelines d'étiquetage automatique et la conversion massive d'images en texte où la latence n'est pas critique, quatre 5090 restent la meilleure option en termes de rapport performance/prix.
Comparaison objective : Pro 6000 BW vs H100
Nous ne vendons pas le H100. Nous détaillerons les avantages et les inconvénients à la demande des clients.
Pour une seule carte, la H100 SXM (80 Go HBM3, 3.35 To/s) surpasse la Pro 6000 BW Server (96 Go GDDR7 ECC, 1.79 To/s) en termes de performances d'inférence mono-flux limitée par la bande passante, d'environ 1.5 à 1.9 fois (soit 60 tok/s contre 31 tok/s pour la Llama 3.3 70B INT4). La H100 dispose également de NVLink et du connecteur mezzanine SXM5, offrant une interconnexion GPU-à-GPU de 900 Go/s dans un nœud HGX à 8 GPU. La Pro 6000 BW, avec son interface PCIe 5.0 x16 (environ 63 Go/s effectifs), est environ 14 fois plus lente pour le trafic inter-cartes.
Pour l'inférence de modèles tenant sur 96 Go d'une seule carte, cette différence est imperceptible : il n'y a pas de trafic inter-cartes. Pour l'inférence de modèles nécessitant un partitionnement sur 4 ou 8 cartes, le H100 avec NVLink offre un débit agrégé supérieur de 30 à 50 %, car le parallélisme des tenseurs est sensible à l'interconnexion. Pour l'entraînement sur 8 cartes, le H100 l'emporte nettement.
L'écart de prix est de 3 à 3.5 fois plus élevé par carte et de 8 à 12 fois plus élevé par nœud utilisable (le HGX H100 inclut la carte porteuse et les commutateurs NV). Pour la plupart des charges de travail non hyperscale, ce ratio n'est pas rentable. Dans les rares cas où il l'est, le client n'achète pas chez Kentino, mais directement chez Dell, Lenovo ou Supermicro, pour des sommes à huit chiffres. Nous le confirmons également par téléphone.
Nous ne dirons pas que la Blackwell Pro 6000 est « aussi performante » ou « compétitive » avec une H100. Elle ne l'est pas sur les critères où la H100 a été conçue pour exceller. Elle reste cependant la carte idéale pour les cas d'utilisation où 96 Go de mémoire ECC à 1.79 To/s répondent aux besoins réels des clients, c'est-à-dire la plupart d'entre eux.
Flux de décision
Début : Quelle est la charge de travail ?
-
Inférence seulement ?
-
Flux interactif unique (chat, agent, voix) ?
- Le modèle tient dans 32 Go (7B–32B INT4) ?
- Le budget est serré : 4× RTX 5090
- ECC requis (conformité) : 4× L40
- Bureau à puissance limitée : 4× Pro 6000 BW Max-Q
- Le modèle nécessite 32 à 80 Go (70 octets INT4, 72 octets VLM) :
- Vous souhaitez la simplicité d'une seule carte : 1 à 2 serveurs Pro 6000 BW
- Priorité Perf/€, accepte les paiements TP bidirectionnels : 4× RTX 5090
- Limité en puissance : 2× Pro 6000 BW Max-Q
- Modèle 80 Go+ (405B INT4, hébergement multi-modèles) :
- Serveur Pro 6000 BW 4× ou 8× dans un châssis 8 GPU
- Réfléchissez bien avant de vous engager dans le cloud. C'est peut-être vraiment la bonne solution.
- Le modèle tient dans 32 Go (7B–32B INT4) ?
-
Traitement par lots (étiquetage automatique, traitement de documents) ?
- Petit modèle (7B–13B) : 8× L4 en 2U (bord) ou 4 × 5090 (étagère)
- Grand modèle (70B+) : Serveur 4× Pro 6000 BW or 8 × 5090
-
Edge / 1U / consommation d'énergie limitée ?
- 1–8× L4
-
Flux interactif unique (chat, agent, voix) ?
-
Entraînement ou mise au point ?
- LoRA / QLoRA / réglage fin (la plupart des clients) :
- 7B–13B : 4× RTX 5090 (ECC non critique)
- 32B–70B : Serveur 4× Pro 6000 BW (ECC + capacité)
- Longues périodes sans surveillance : choisissez toujours des pièces ECC
- Formation complète 70B+ : non viable ici — recommandez le cloud ou la classe DGX
- Réglage fin de la diffusion/VLM : Pro 6000 BW pour la taille du lot, 5090 pour perf/€ sur des lots plus petits
- LoRA / QLoRA / réglage fin (la plupart des clients) :
-
Mixte (formation + inférence, laboratoire de recherche) ?
- 4 GPU : Serveur 4× Pro 6000 BW (Max-Q si la puissance est limitée)
- 8 GPU : Serveur 8× Pro 6000 BW dans châssis double EPYC
- Configuration mixte : l’utilisation de 4 GPU 5090 pour l’inférence et d’1 GPU Pro 6000 pour l’entraînement en bande passante dans le même châssis est possible, mais peu esthétique.
La configuration « 4× RTX 5090 » est la plus courante. La configuration « 4× Pro 6000 BW Server » arrive en deuxième position. Les configurations L4 et Max-Q sont moins répandues, mais elles ne constituent pas un marché de niche : chaque trimestre, nous livrons des lots de plusieurs unités pour des déploiements en entreprise où des cartes de 600 W ne seraient pas compatibles avec le réseau électrique du bâtiment.
Ce que nous n'avons pas en stock
En clair : Kentino ne vend pas de matériel NVL (H100 SXM, H200 SXM, A100 SXM, B200 ou GB200). Le format SXM5 et l’écosystème des cartes porteuses HGX/NVL relèvent d’un segment de la chaîne d’approvisionnement auquel nous n’appartenons pas. Les variantes PCIe H100 ont existé brièvement et ne sont plus disponibles sur le marché. Si votre charge de travail nécessite réellement 8 H100 avec NVLink, vos options réalistes en mai 2026 sont les suivantes : louer auprès d’un hyperscaler ou d’un cloud spécialisé, acheter directement auprès de Dell/Lenovo/Supermicro (avec un délai de 12 à 20 semaines), ou collaborer avec un intégrateur de ce segment.
Nous ne stockons pas non plus les AMD Instinct MI300X ou MI325X — performantes sur le papier pour l'inférence limitée par la mémoire (192 Go HBM3, 5.3 To/s sur MI300X), mais la maturité du logiciel ROCm et la disponibilité des canaux en République tchèque ne correspondent pas à notre clientèle actuelle.
Où se situe l'analyse pour les acheteurs types
- Laboratoire de recherche, premier serveur d'inférence : Configuration 4 cartes graphiques RTX 5090 sur processeur EPYC Turin avec 192 Go de RAM, double alimentation ATX, boîtier rack 4U. Prend en charge tous les modèles jusqu'à 70 octets de courant continu (INT4) sur le processeur graphique, avec une marge de manœuvre pour un réglage fin.
- Startup au service de l'inférence de production : Serveur 4× Pro 6000 BW en 4U avec hôte EPYC Genoa/Turin, 384–512 Go de RAM, alimentation CRPS avec redondance 1+1. Mémoire ECC, sans écran, marge de 70 octets et plus par carte.
- Laboratoire de robotique + calcul sur site : Serveur 4× Pro 6000 BW. Les 96 Go permettent d'héberger simultanément Qwen2.5-VL 72B et un LLM ; la correction d'erreurs ECC est importante car la sortie d'inférence sollicite le matériel physique.
- Achats d'entreprise pour la conformité : 4 ou 8 processeurs L40 dans un châssis Supermicro. Rapport performances/prix moins bon, mais chaque ligne de la nomenclature est conforme aux normes.
- Succursale, vente au détail, avantage concurrentiel : 4 ou 8 modules L4 en 1U/2U. Alimentation de bureau, sans climatisation spéciale.
- Extension de la flotte existante de 4090 : Plus de 4090 si le budget est contraignant et que vous pouvez en trouver ; sinon, des 5090 mélangées (vLLM gère le TP de générations différentes de manière acceptable ; ne mélangez pas la 4090 avec la Pro 6000 — la disparité de bande passante ruine l'effet de la carte la moins performante).
Que faire ensuite
Avant de spécifier les GPU, répondez à ces cinq questions :
- Veuillez lister tous les modèles que vous devez héberger simultanément. Additionnez les empreintes INT4. Ajoutez 40 à 60 % pour le cache KV au niveau du lot cible et du contexte. Vous obtiendrez ainsi votre VRAM minimale, totale et par carte.
- Indiquez la latence cible. Un débit de flux unique inférieur à 30 tok/s permet d'utiliser presque n'importe quel matériel. Au-delà de 60 tok/s, le choix se limite aux modèles 5090 ou Pro 6000 BW. Le débit journalier en mode rafale est un indicateur différent qui modifie la réponse.
- Indiquez l'enveloppe de puissance au niveau du mur. Un circuit monophasé de 16 A permet de gérer jusqu'à 4 GPU grand public. Un circuit triphasé de 32 A permet d'en gérer jusqu'à 8. Un circuit de 10 A (usage bureautique) est compatible uniquement avec les processeurs L4 ou Max-Q.
- Indiquez la contrainte d'approvisionnement. « Nous n'achetons que des références pour entreprises » → Serveur L40 ou Pro 6000 BW. « Nous achetons ce qui est disponible » → 5090. Soyez honnête avec vous-même : c'est cette contrainte qui fait dérailler la plupart des projets en fin de processus.
- Indiquez le cycle de service et la durée de vie. Une utilisation 24h/24 et 7j/7 pendant trois ans permet de rentabiliser les alimentations ECC et Platinum. Ce n'est pas le cas pour une machine de test utilisée pour le développement.
Si vous ne pouvez pas répondre aux cinq questions, aucun choix de GPU ne semblera judicieux a posteriori. Si vous le pouvez, la bonne réponse apparaîtra clairement dans le tableau ci-dessus dès le premier appel. Voir W05 pour les aspects thermiques et la circulation de l'air, W06 pour les niveaux de stockage, et W01 pour les règles de dimensionnement RAM/VRAM qui sous-tendent la sélection du GPU.
Ceci fait partie du Kentino Wiki, une série de référence sur l'intelligence artificielle, la robotique et les systèmes qui les connectent. Commentaires et corrections bienvenus. info@kentino.com.