Kentino Ltd
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 Go de VRAM ECC)
K-AI 288 Rome L40 — 6× NVIDIA L40 Passive Enterprise (288 Go de VRAM ECC)
Impossible de charger la disponibilité du ramassage
K-AI 288 Rome L40 2172TOPS
Serveur d'entreprise avec 288 Go de VRAM ECC
6x NVIDIA L40 Passive | EPYC Milan | 2 172 TOPS INT8
Références externes publiées. Mesures non effectuées sur du matériel Kentino.
Serveur d'inférence d'entreprise rackable 4U équipé de six cartes graphiques passives NVIDIA L40 Ada Lovelace (48 Go ECC chacune) totalisant 288 Go de VRAM ECC, d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 384 Go de mémoire DDR4-2666 ECC, d'un disque NVMe de 2 To pour le système d'exploitation et d'une double alimentation ATX synchronisée de 2.5 kW. Optimisé pour une utilisation intensive en ECC, ce serveur est conçu pour une production en entreprise 24h/24 et 7j/7 où l'intégrité des données au niveau du bit et la disponibilité des domaines de panne sont essentielles.
Hardware
| Composant | Détails |
|---|---|
| GPU | 6x NVIDIA L40 48 Go ECC (Ada Lovelace, centre de données passif, 300 W, PCIe 4.0 x16, double emplacement, 362 TOPS INT8/carte) |
| Pool de VRAM | 288 Go de mémoire ECC cumulée sur 6 cartes (pas de NVLink sur la référence PCIe L40) |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 384 Go DDR4-2666 ECC RDIMM (6 x 64 Go — 2 emplacements DIMM disponibles pour une mise à niveau jusqu'à 512 Go) |
| Démarrage / stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | 2 alimentations ATX de 2.5 kW avec câble de synchronisation double alimentation (puissance totale de 5 kW) |
| Châssis | Montage en rack 4U (configuration à 6 emplacements) |
| Refroidissement | Refroidisseur tour SP3 (classe Arctic Freezer 4U-M) + flux d'air dirigé de l'avant vers l'arrière (ventilateurs industriels) |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU : 6 x 300 W = 1 800 W
- Puissance totale du système à pleine charge : ~2 175 W
- Puissance totale de l'alimentation : 5 000 W (deux modules de 2.5 kW synchronisés) — marge de 56.5 %
- Double alimentation pour une distribution d'énergie partagée — une panne d'une seule alimentation entraîne la perte de 2 cartes graphiques ou de 2 cartes graphiques et de la carte mère.
Topologie des voies
La carte ROMED8-2T expose 7 ports PCIe 4.0 x16 directement depuis le GPU EPYC Milan. Six emplacements sont équipés de risers passifs Gen4 x16 ; un emplacement reste libre pour une carte réseau ou du stockage. Aucun commutateur PCIe n'est requis. La liaison native L40 est PCIe 4.0 x16, sans perte de bande passante. Pas de NVLink ; le trafic inter-GPU s'effectue via PCIe peer-to-peer.
Ce que vous pouvez courir
Avec 288 Go de VRAM ECC mutualisée répartie sur 6 cartes L40 passives, ce serveur prend en charge les LLM ouverts de pointe au niveau Q4, la diffusion simultanée multi-modèles, les pipelines vidéo/média et l'inférence de production d'entreprise 24h/24 et 7j/7. Remarque : L40 utilise l'architecture Ada Lovelace, et non Blackwell ; les conversions ascendantes fp8 sont converties en bf16. Pour une efficacité maximale de la VRAM, utilisez GGUF Q4/Q5 ou AWQ/GPTQ int4.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3-235B-A22B Q4 (~132 Go) avec un contexte très long + un budget KV généreux (~15-20 tok/s unique, référence publiée)
- GLM-4.5 / 4.6 / 4.7 Q4 (~177 Go) confortable sur TP 6 voies (~12-18 tok/s simple, référence publiée)
- Hunyuan-Grand 389B/52B T3 (~160 Go); ERNIE-4.5-424B-A47B Q3 (~180 Go)
- Qwen3-Coder-480B-A35B Agent de codage phare du 2e trimestre (~160 Go)
- MiniMax-M1 / Texte-01 Q3 (~180 Go) 1M-ctx Lightning Attention
- Qwen3-30B-A3B / QwQ-32B / Qwen3-32B — une seule carte avec 6 flux parallèles
- DeepSeek-R2 32B MoE clairsemé — une seule carte par flux, 6 sessions simultanées
Frontière de l'Ouest
- Lama 3.3 70B bf16 (~142 Go) multi-locataire (~17 tok/s unique, référence publiée), ou Q4 (~43 Go) avec 6 copies simultanées
- Llama 4 Scout 109B/17B bf16 (~218 Go serré) ou Q4 (~63 Go) confortable
- Mistral Petit 3 / Magistral / Devstral Petit (24B) bf16 (~40-50 tok/s simple, référence publiée)
- Pixtral Large / Mistral Large 2 Q6-Q8 (~90-140 Go)
- Llama-3.1-Nemotron Ultra 253B Q4 (~119 Go)
- gpt-oss-120b MXFP4 (~80 Go via GGUF sur Ada — attention à la mise en garde concernant la conversion ascendante en Ada)
- Commande Cohere R+ Pile RAG 104B Q4
Modèles Vision-Langage
Qwen3-VL-235B-A22B Q4 ; Qwen3-VL-32B ; InternVL3.5-78B / 241B-A28B Q4 (~135 Go) ; Llama 3.2 90B Vision bf16 (~180 Go) ; Pixtral 12B ; Molmo 72B ; Gemma 3 12B/27B multimodal ; GLM-4.6V complet (106B bf16) ; MiniCPM-o 2.6. Le NVENC/NVDEC du L40 est particulièrement utile pour les pipelines de documents/vidéo VLM à haut débit.
Génération d'images
FLUX.1 [dev] / Kontext / Outils sur plusieurs travailleurs simultanément (~3.5 s par image 1024x1024 sur un seul L40 fp8, référence publiée) — Ferme de travailleurs ComfyUI 6x possible ; SD 3.5 Large ; HunyuanImage-2.1 (17B) bf16 ; HunyuanDiT ; Kolors 2.0 ; AuraFlow ; OmniGen.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B double expert bf16 (~54 Go, ~20-30 s par clip de 4 s à 720p, référence publiée) ; HunyuanVideo 13B bf16 les deux experts ; Open-Sora 2.0 bf16 ; CogVideoX-5B ; Mochi-1 ; LTX-Video ; Pyramid Flow ; NVIDIA Cosmos Predict 2. Le matériel NVENC/NVDEC du L40 gère le sous-titrage / la modération / le transcodage à grande échelle en même temps que la génération.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 large / turbo ; Parakeet-TDT 1.1B ; Canary 1B ; Qwen3-ASR ; SenseVoice
- STT : CosyVoice 2/3 ; Kokoro 82M ; Stable Audio Open ; XTTS v2 ; Step-Audio-EditX
- Temps réel / S2S : Kyutai Moshi ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
Service multi-modèles / multi-locataires
- Résidence multi-modèles — Qwen3-235B Q4 + FLUX.1 + HunyuanVideo + Whisper-turbo + Moshi + embedder, tous résidents
- 6 charges de travail simultanées de classe 48 Go (une par carte) : 6 processus Qwen3-VL-32B, ou 6 processus FLUX.1, ou 6 flux ASR
- Parallélisme tensoriel à 6 voies pour plus de 200 milliards de MoE au 4e trimestre avec contexte réel
- Pipelines RAG — Commande R+ / Qwen3 + reclasseur + intégrateur + analyse d'images sur le même hôte
Charges de travail cibles
- Serveur d'inférence LLM en production 24h/24 et 7j/7 — Plus de 100 utilisateurs simultanés sur plus de 200 milliards de MoE au T4, protégé par ECC
- Pipeline d'IA multimédia à l'échelle de l'entreprise : sous-titrage + modération + vignette + transcodage sur 6 flux parallèles via NVENC/NVDEC
- SaaS mutualisé où l'isolation par locataire sur les cartes physiques est essentielle
- Backend RAG avec lecteur Command R+ + reclasseur + intégrateur + vision entièrement résident
- Paire privilégiant la fiabilité remplaçant les 12 serveurs L40 Legacy — deux serveurs K-AI 288 = 576 Go agrégés avec domaines de défaillance indépendants
Références de performance publiées
Références externes | Mesures non effectuées sur du matériel Kentino
| référence | Résultat |
|---|---|
| L40 par carte INT8 TOPS | 362 TOPS |
| Bande passante de la mémoire L40 | 864 Go/s par carte |
| vLLM — Llama 3.3 70B AWQ INT4 sur 2x L40 TP (simple) | ~25-35 tok/s |
| vLLM — Lama 3.3 70B AWQ INT4 sur 2x L40 TP (lot-16) | ~150-200 tok/s en moyenne |
| llama.cpp — GLM-4.6 Q4 sur 6x L40 (simple) | ~12-18 tok/s |
| FLUX.1 [dev] sur un seul L40 fp8 | ~3.5 s par image 1024x1024 |
Kentino publiera des chiffres de première main après la première version destinée aux clients.
Pas idéal pour
- Inférence fp8 native à pleine vitesse — Conversion ada vers bf16 ; utilisez plutôt GGUF Q4/Q5 ou AWQ/GPTQ int4. Pour plus d'informations sur l'inférence fp8 native, voir K-AI 384 Rome RTXPro6000 (Blackwell).
- Entraînement de grands modèles à partir de zéro (sans NVLink)
- Inférence mono-utilisateur économique — 4x L4 ou 4x 5080 est sensiblement moins cher pour les petites charges de travail
- Frontier 600B+ dense à partir du 4e trimestre (nécessite un pool de 576 Go+ — voir 6x RTX Pro 6000)
Garantie et délai de livraison
L'assemblage comprend l'installation, la configuration du BIOS, l'installation des pilotes, le rodage, le test de mémoire et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Augmentez la RAM à 512 Go DDR4 (ajoutez 2 x 64 Go — 2 emplacements DIMM libres) pour un budget KV plus important
- 4 disques NVMe Gen4 de 4 To pour la préparation de la bibliothèque de modèles
- Baie rack 24U complète avec PDU géré + UPS en ligne (essentiel pour les charges de travail ECC 24h/24 et 7j/7)
- Deuxième unité K-AI 288 jumelée — remplace l'enveloppe L40 Legacy 12x par deux domaines de défaillance indépendants
Share
