Kentino Ltd
K-AI 192 Rome L40 1448TOPS — 4× NVIDIA L40 — EPYC Milan
K-AI 192 Rome L40 1448TOPS — 4× NVIDIA L40 — EPYC Milan
Impossible de charger la disponibilité du ramassage
K-AI 192 Rome L40 1448TOPS
Serveur d'inférence d'entreprise ECC de 192 Go
4x NVIDIA L40 Passive | EPYC Milan | 1 448 TOPS INT8
Quatre cartes passives L40 pour centres de données avec mémoire ECC. Même capacité de 192 Go que 8 RTX 4090, mais de qualité centre de données, protégées par ECC et garanties par le constructeur.
Serveur d'inférence rackable 4U équipé de quatre cartes NVIDIA L40 passives (192 Go de VRAM ECC), d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 256 Go de mémoire DDR4 ECC, d'un disque NVMe de 2 To pour le système d'exploitation et de deux alimentations ATX synchronisées de 2 kW. La L40 est la version pour centres de données de la RTX 4090 : refroidissement passif, mémoire ECC, encodeurs matériels NVENC/NVDEC intégrés et garantie constructeur NVIDIA de 3 ans. Compatible avec vLLM, SGLang, llama.cpp, Triton et TensorRT-LLM.
Hardware
| Composant | Détails |
|---|---|
| GPU | 4x NVIDIA L40 48 Go ECC GDDR6 (Ada Lovelace, passif, 300 W, double emplacement, PCIe 4.0 x16) |
| Pool de VRAM | 192 Go ECC répartis sur 4 cartes (pas de NVLink sur L40) |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 256 Go DDR4-2666 ECC RDIMM (4 x 64 Go) |
| Démarrage / stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | Alimentation ATX double de 2 kW avec câble de synchronisation |
| Châssis | Montage en rack 4U avec flux d'air dirigé de l'avant vers l'arrière |
| Refroidissement | Colonne Arctic Freezer 4U-M SP3 + 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU : 4 x 300 W = 1 200 W
- Puissance totale du système à pleine charge : ~1 525 W
- Puissance totale de l'alimentation : 4 000 W (deux modules de 2 kW synchronisés) — marge de 61.9 %
- Double alimentation pour une distribution d'énergie séparée et une capacité N+1
Topologie des voies
PCIe Gen4 x16 par carte (L40 natif Gen4). Connexion directe au processeur graphique depuis un seul EPYC — aucun commutateur PCIe. Pas de NVLink — le trafic inter-GPU s’effectue via PCIe peer-to-peer. Trois emplacements x16 restent disponibles pour l’extension de la carte réseau et du stockage.
Ce que vous pouvez courir
Avec 192 Go de VRAM ECC répartis sur 4 cartes de centre de données, ce serveur gère plus de 200 milliards de MoE de pointe au quatrième trimestre, un service multi-locataire d'entreprise avec un SLA strict et une inférence de production 24h/24 et 7j/7 sans dérive de bits liée à l'ECC.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3 / Qwen3.5 (Alibaba) : Qwen3-235B-A22B Q4 (~132 Go) avec contexte long — configuration optimale (~12-18 tok/s en flux unique sur 4 L40) ; Qwen3-Coder-480B-A35B Q2 (~160 Go, optimisé) ; Qwen3.5-122B-A10B fp8 (~75 Go) avec KV important ; Qwen3-32B bf16 dense, flux multiples simultanés.
- Recherche profonde : DeepSeek-V3/R1/V3.1/V3.2 Q2 (environ 215 Go avec un léger débordement de RAM) ; DeepSeek-R2 32B — 4 flux simultanés, un par carte
- GLM / Z.ai : GLM-4.5 / 4.6 / 4.7 Q4 (~177 Go) — le meilleur choix pour ce niveau ; GLM-4.5-Air 106B/12B fp8 ou bf16
- Tencent Hunyuan : Hunyuan-Large Q3 (~160 Go) — 389 octets MoE avec 256 kbits/s ; Hunyuan-A13B fp8 (~80 Go) avec un KV très élevé
- Baidu ERNIE-4.5-424B Q3 (~ 180 Go) ; InternVL3.5-241B-A28B Q4 (~ 135 Go) ; Qwen3.5-397B Q3 (~ 170 Go)
Frontière de l'Ouest
- Méta-lama : Llama 3.3 70B bf16 avec un KV massif (~15-18 tok/s en flux unique sur 4x L40) ; Llama 4 Scout bf16 (~218 Go) compact ; Llama 4 Maverick 400B/17B Q3 (~188 Go)
- Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~102 Go) confortable ; Mistral Small 3 multi-flux
- OpenAI (poids ouverts) : gpt-oss-120b MXFP4 (80 Go) avec un KV généreux
- NVIDIA Nemotron : Llama-3.1-Nemotron Ultra 253B Q4 (~147 Go) ; Super 49B bf16 flux multiples
- Google Gemma 3 : 27B bf16 multimodal — flux résidents multiples
- Autres : Cohere Command R+ 104B Q6 (~85 Go) ; OLMo 3.1 32B ; Reka Flash 3 21B ; IBM Granite 4.0 H-Small
Modèles Vision-Langage
InternVL3.5-241B-A28B Q4 (~135 Go); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16; Llama 3.2 90B Vision bf16 (~180 Go); Pixtral Large 124B Q6-bf16; Molmo 72B bf16; GLM-4.6V 106B fp8; Gemma 3 27B multimodal flux multiples; InternVL3 78B bf16; DeepSeek-VL2 gamme complète.
Génération d'images
FLUX.1 [dev] / [schnell] bf16 avec génération simultanée (~3-4 s par image 1024x1024 sur L40) ; FLUX.1 Kontext [dev] ; FLUX Tools ; SD 3.5 Large bf16 x 2-3 simultané ; HunyuanImage-2.1 bf16 (~34 Go) multi-flux ; HunyuanImage-3.0 base (80 octets MoE, 13 octets actifs) bf16 (~80 Go) ; HunyuanDiT ; Kolors / Kolors 2.0 ; AuraFlow ; OmniGen v1 ; PixArt-Sigma.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 double expert contexte complet ; Wan 2.2 TI2V-5B chemin rapide ; HunyuanVideo 13B bf16 les deux experts ; HunyuanVideo 1.5 ; CogVideoX-5B bf16 ; Open-Sora 2.0 11B bf16 ; Mochi-1 bf16 (~42 Go) multi-flux ; LTX-Video ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos Predict 2.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 large / turbo (~50x temps réel) ; Parakeet-TDT ; Canary 1B ; Qwen3-ASR ; SenseVoice
- STT : CosyVoice 2/3 ; Kokoro 82M ; XTTS v2 ; Stable Audio Open ; Step-Audio-EditX
- Temps réel / S2S : Kyutai Moshi 7B ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
- Musique / Effets sonores : MusicGen / AudioGen / Bark ; SeamlessM4T v2
Service multi-modèles / multi-locataires
- Passerelle LLM de production d'entreprise — Qwen3-235B Q4 ou GLM-4.5/4.6 Q4, prenant en charge 16 à 32 utilisateurs simultanés avec un SLA strict.
- Pile logicielle mixte : 235 octets MoE + FLUX.1 + Whisper-turbo + Moshi avec VRAM partitionnée et protection ECC
- Pipeline vidéo en direct + IA — Les encodeurs matériels NVENC/NVDEC diffusent 6 à 8 pipelines de sous-titrage et de modération en parallèle
- RAG multi-locataire — intégration côté requête + lecteur 70B + réordonnanceur avec une latence P99 inférieure à la seconde
Charges de travail cibles
- Inférence LLM en production 24h/24 et 7j/7 sur un pool de 192 Go (Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16)
- Service mutualisé d'entreprise avec SLA strict — Fiabilité ECC sur le long terme
- RAG + base de données vectorielle avec des modèles de recherche de haute qualité fonctionnant simultanément
- Pipelines d'IA pour les médias et la vidéo — Chemin matériel NVENC/NVDEC, rendu VFX, transcription/traduction
- Déploiements silencieux en centre de données — cartes passives, faible niveau sonore à proximité des espaces de bureaux
Performance mesurée
Références publiées | Fiche technique NVIDIA L40 + benchmarks de la communauté
| référence | Résultat |
|---|---|
| Performances maximales INT8 par carte (fiche technique NVIDIA) | 362 TOPS |
| Total INT8 TOPS (4 cartes) | 1 448 TOPS |
| VRAM par carte | 48 Go de mémoire GDDR6 ECC, bande passante de 864 Go/s |
| Llama 3.3 70B Q6 via vLLM (communauté) | 30-50 tok/s en flux unique, 150+ tok/s en lot-16 |
| FLUX.1 [dev] bf16 sur L40 (communauté) | ~3-4 s par image 1024x1024 |
| NVENC/NVDEC | Encodeurs matériels de 8e génération intégrés (pipeline d'IA vidéo) |
Les données de référence externes publiées n'ont pas été mesurées sur du matériel Kentino. Kentino publiera ses propres résultats après la première livraison au client.
Pas idéal pour
- Entraînement de grands modèles à partir de zéro (sans NVLink, calcul tensoriel FP8 limité)
- Inférence budgétaire pour un seul utilisateur (4x L4 ou 2x L40 est sensiblement moins cher)
- Configuration BF16 70B dense avec un contexte très long sur un seul modèle — je préfère 2x RTX Pro 6000 Server Edition (même pool de 192 Go, moins de surcharge TP)
Garantie et délai de livraison
Garantie constructeur NVIDIA de 3 ans sur le processeur L40 + garantie d'intégration Kentino. La configuration inclut l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Augmentez la RAM à 512 Go (ajoutez 4 barrettes DDR4 de 64 Go — quatre emplacements DIMM restent disponibles).
- Disque NVMe de 4 To pour la préparation de la bibliothèque de modèles
- Baie rack 24U complète avec PDU administrable et onduleur en ligne 5 kVA
Share
