Kentino Ltd
K-AI 96 Rome L40 724TOPS — Serveur d'inférence de production NVIDIA L40 ECC (2 processeurs)
K-AI 96 Rome L40 724TOPS — Serveur d'inférence de production NVIDIA L40 ECC (2 processeurs)
Impossible de charger la disponibilité du ramassage
K-AI 96 Rome L40 724TOPS
2 serveurs de production ECC L40
96 Go de VRAM ECC | EPYC Milan | 724 HAUTS INT8
Boîtier ECC d'entrée de gamme pour entreprises 24/7 — 2x L40 passif, pool de VRAM ECC de 96 Go, alternative de qualité centre de données au niveau 4090 pour les déploiements réglementés.
Un serveur d'inférence bi-GPU de classe production, basé sur ROMED8-2T / EPYC Milan et équipé de deux cartes NVIDIA L40 passives. Il dispose de 96 Go de mémoire GDDR6 ECC, soit la même capacité VRAM que la configuration 4x RTX 4090, mais avec une certification complète pour les centres de données, de la mémoire ECC sur chaque carte et une conception thermique optimisée pour un fonctionnement continu 24h/24 et 7j/7. C'est le choix idéal lorsque l'utilisation de la RTX 4090 soulève des problèmes de garantie, de fiabilité ou de conformité : finance, santé, vérifications officielles et tout service LLM/VLM en production continue.
Hardware
| Composant | Détails |
|---|---|
| GPU | 2x NVIDIA L40 48 Go GDDR6 ECC (Ada Lovelace, passif, 300 W, double emplacement, PCIe 4.0 x16) |
| Pool de VRAM | 96 Go ECC (sans NVLink) |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 256 Go DDR4-2666 ECC RDIMM (4 x 64 Go) |
| Démarrage / stockage | SSD NVMe M.1 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | Alimentation ATX simple de 2 kW |
| Châssis | Rehausseurs passifs Gen4 x16 pour montage en rack 4U |
| Refroidissement | Refroidisseur tour SP3 (Arctic Freezer 4U-M), 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm |
| Réseau | Double interface 10 GbE intégrée (Intel X550) + IPMI |
Enveloppe de puissance
- Consommation du GPU : 2 x 300 W = 600 W
- Puissance totale du système à pleine charge : ~925 W
- Puissance totale de l'alimentation : 2 000 W — marge de 53.8 %
- Marge confortable pour une seule alimentation, fonctionnement silencieux
Topologie des voies
PCIe Gen4 x16 sur les deux GPU (L40 natif Gen4 x16). 16 lignes directes depuis le processeur — aucun commutateur PCIe. NVLink absent sur L40 — communication inter-GPU via PCIe P2P. Bande passante mémoire de 864 Go/s par carte.
Ce que vous pouvez courir
Avec 96 Go de VRAM ECC répartis sur 2 cartes L40 passives, ce serveur gère le service LLM 24h/24 et 7j/7 en entreprise, les déploiements réglementés, la génération d'images et de vidéos et l'inférence multi-locataires où la fiabilité ECC et la garantie du centre de données sont importantes.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3-32B bf16 mono-GPU sur un L40 avec une marge de 32k ctx (~18-22 tok/s flux unique sur L40, référence publiée)
- Qwen3.5-27B bf16; Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 Go) 256k ctx
- Qwen3.5-122B-A10B Q4 (~70 Go) — Appareil phare de MoE, format long
- QwQ-32B bf16; Hunyuan-A13B Q6 (~48 Go)
- DeepSeek-R2 32B MoE clairsemé bf16 — compatible avec un seul GPU, deux flux parallèles
- GLM-4.5-Air 106B/12B Q4-Q5 (60-70 Go confortables)
- Graine-OSS-36B bf16 — 512k ctx natif ; ERNIE-4.5-47B-A3B Q6-Q8
- Baichuan-M2-32B bf16 (raisonnement médical — avantage ECC ici)
Frontière de l'Ouest
- Lama 3.3 70B Q6 (~58 Go) avec marge de sécurité KV ; Q4_K_M (~43 Go) ctx très long (~15-18 tok/s en flux unique sur 2x L40, référence publiée)
- Hermes 3 70B / Tulu 3 70B Q4-Q6; Llama 4 Scout 109B/17B MoE Q4 (~63 Go)
- Mistral Petit 3 / Magistral Petit 1.2 / Devstral Petit 2 (24B) bf16; Mixtral 8x22B Q3-Q4
- gpt-oss-120b MXFP4 (~80 Go) avec salle KV
- Gemma 3 27B BF16 multimodal avec CTX 128k
- Phi-4 14B / Raisonnement Phi-4 / Phi-4-multimodal bf16
- Nemotron-Super 49B Q6-Q8; IBM Granite 4.0 H-Petit 32B/9B — conformité d'entreprise
- Reka Flash 3 21B bf16; OLMo 2 32B / OLMo 3.1-32B-Think bf16
Modèles Vision-Langage
Qwen3-VL-8B / 32B, Qwen3-VL-30B-A3B MoE, Qwen3-Omni-30B-A3B ; InternVL3 jusqu'à 78B Q4 (~48 Go) ; InternVL3.5-38B bf16 ; DeepSeek-VL2 ; ERNIE-4.5-VL-28B-A3B-Thinking ; Llama 3.2 11B Vision bf16 ; Pixtral 12B bf16 ; Gemma 3 12B / 27B multimodal ; PaliGemma 2 (3/10/28B) ; MiniCPM-V 2.6 / MiniCPM-o 2.6 ; GLM-4.6V-Flash ; Molmo 72B Q4 ; Aya Vision 32B.
Génération d'images
La carte L40 possède des cœurs tenseurs Ada et une bande passante mémoire de 864 Go/s par carte, ce qui la rend idéale pour les pipelines de traitement d'images en production : FLUX.1 [dev] / [schnell] fp16 (~24 Go) ou fp8 (~12 Go) (~15-25 secondes par image 1024x1024 en fp8, référence publiée) ; FLUX.1 Kontext [dev] ; FLUX Tools (Fill / Depth / Canny / Redux) ; SD 3.5 Large (18 Go fp16 / 11 Go fp8) ; SDXL 1.0 + ControlNet + AnimateDiff ; HunyuanImage-2.1 bf16 (~34 Go) ; Kolors 2.0 ; AuraFlow v0.3 ; OmniGen v1 ; PixArt-Sigma.
Génération vidéo
HunyuanVideo 13B bf16 tient sur une carte L40 en 720p (court clip) ; Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 Go) tensor-parallel 2 voies ; Wan 2.2 TI2V-5B bf16 par carte ; Wan 2.1 14B fp8 / bf16 ; HunyuanVideo 1.5 (8.3 octets) bf16 ; Open-Sora 2.0 (11 octets) bf16 ; CogVideoX-5B / 1.5 bf16 ; Mochi-1 bf16 (~42 Go) ; LTX-Video 2B ; SVD / SV3D / SV4D ; NVIDIA Cosmos Predict 2.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 large / turbo (environ 50 fois le temps réel sur un seul GPU, référence publiée) ; Parakeet-TDT 1.1B ; Canary 1B ; Qwen3-ASR ; SenseVoice
- STT : CosyVoice 2 / Fun-CosyVoice 3.0 ; Kokoro 82M ; Stable Audio Open ; Coqui XTTS v2 ; StyleTTS 2 ; Step-Audio-EditX
- Temps réel / S2S : Kyutai Moshi (latence de 200 ms, duplex intégral) ; Step-Audio 2 mini / R1 / R1.1 ; Qwen2.5-Omni-7B
- Musique / Effets sonores / Traduction : MusicGen ; AudioGen ; Suno Bark ; SeamlessM4T v2 ; MMS
Service multi-modèles / multi-locataires
- 4 à 8 utilisateurs simultanés sur des LLM de classe 32 à 70B via vLLM parallèle tensor ou partition par carte
- Pile logicielle mixte : Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi (résidentiel) avec VRAM partitionnée
- Inférence LoRA + léger réglage fin de 7-14B ; paramètres complets possibles sur les modèles plus petits
- Pipelines RAG avec Command R / Qwen3 + BGE-M3 / E5 / Jina embeddings
Charges de travail cibles
- Enterprise 24/7 LLM au service de — 70B Q4-Q6, Qwen3-32B bf16, Mistral Small 3 bf16
- Déploiement réglementé nécessitant une mémoire ECC (finance, santé, vérification formelle)
- Service à contexte long — Seed-OSS-36B 512k ctx tient parfaitement sur le pool de 96 Go
- Avions de combat de niveau intermédiaire du ministère de l'Énergie — Hunyuan-A13B Q6, GLM-4.5-Air Q4, Qwen3-30B-A3B bf16
- Traitement de documents VLM — InternVL3.5-38B, Pixtral 12B bf16, Qwen3-VL-32B
Références de performance publiées
Référence publiée | Matériel équivalent à 2x NVIDIA L40
| référence | Résultat |
|---|---|
| Llama 3.3 70B Q4_K_M sur 2x L40 division tensorielle | ~15-18 tok/s flux unique |
| Qwen3-32B bf16 mono-GPU sur un L40 | ~18-22 tok/s flux unique |
| vLLM Hunyuan-A13B Q6 sur pool 2x L40 | ~28-34 tok/s flux unique |
| HunyuanVideo 13B bf16 sur un L40 | Courte vidéo en 720p — tient dans 48 Go |
| Métriques par carte | 362 TOPS INT8, 864 Go/s, TDP de 300 W |
Publié, non mesuré sur du matériel Kentino.
Pas idéal pour
- Optimisation du coût par TFLOPS — 4 RTX 4090 offrent 2 644 TOPS agrégés à environ 40 % du coût des composants (sans ECC / garantie de centre de données)
- Modèles Frontier 200B+ haute densité — Limite de stockage de 96 Go (nécessite une référence de 192 Go ou plus)
- Génération vidéo en pleine résolution au format long de BF16 (un expert du ministère de l'Énergie WAN 2.2 souhaite plus de VRAM)
- Formation à partir de zéro — L40 est certifié pour l'inférence ; utilisez une RTX Pro 6000 / station de travail Blackwell pour la formation
Garantie et délai de livraison
Garantie constructeur NVIDIA de 3 ans pour centres de données sur le L40 + garantie d'intégration Kentino (2 ans pièces, 1 an main-d'œuvre). L'installation comprend le montage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle.
Modules complémentaires recommandés
- Passez à 4 serveurs L40 (K-AI 192 Rome L40 1448TOPS) pour un pool ECC de 192 Go et un service de niveau frontière.
- Augmentez la RAM à 512 Go (ajoutez 4 barrettes de 64 Go DDR4) pour des piles d'embeddings/reranker plus importantes.
- Mise à niveau du disque NVMe vers 4 To pour la bibliothèque de modèles et la zone de transit des jeux de données
- Alimentation redondante (double alimentation synchronisée de 2 kW) disponible sur demande
- PDU rack + onduleur en ligne 3 kVA pour centre de production
Share
