Kentino Ltd
K-AI 96 Rome 4090 2644TOPS — Serveur d'inférence IA 4× RTX 4090
K-AI 96 Rome 4090 2644TOPS — Serveur d'inférence IA 4× RTX 4090
Jamais można załadować gotowości do odbioru
K-AI 96 Rome 4090 2644TOPS
Serveur d'inférence avec 96 Go de VRAM
4x RTX 4090 | EPYC Rome | 2 644 TOPS INT8
Mesuré sur du matériel Kentino. Llama 3.3 70B AWQ INT4 via vLLM 0.19.0.
Serveur d'inférence rackable 4U équipé de quatre cartes graphiques GeForce RTX 4090 (96 Go de VRAM au total), d'un processeur AMD EPYC 7542 Rome (32 cœurs/64 threads), de 256 Go de mémoire DDR4 ECC, d'un disque SSD NVMe de 2 To pour le système d'exploitation et de deux alimentations ATX de 2 kW synchronisées. Compatible avec vLLM, SGLang, llama.cpp, ComfyUI et toutes les principales piles d'inférence open source.
Hardware
| Composant | Détails |
|---|---|
| GPU | 4 cartes graphiques NVIDIA GeForce RTX 4090 24 Go GDDR6X (450 W, PCIe 4.0 x16) |
| Pool de VRAM | 96 Go au total répartis sur 4 cartes |
| Processeur | AMD EPYC 7542 Rome (32 cœurs/64 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 256 Go DDR4-2666 ECC RDIMM (4 x 64 Go) |
| Stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| PSU | Double alimentation ATX de 2 kW avec câble de synchronisation |
| Châssis | Système de montage en rack 4U, flux d'air dirigé de l'avant vers l'arrière |
| Refroidissement | Refroidisseur tour SP3, 3 ventilateurs industriels de 120 mm à l'avant et 1 à l'arrière |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU : 4 x 450 W = 1 800 W
- Puissance totale du système : ~2 125 W
- Puissance totale de l'alimentation : 4 000 W (deux modules de 2 kW) — marge de 46.9 %
- Alimentation partagée — une panne d’un seul bloc d’alimentation entraîne la perte de 2 cartes graphiques ou de 2 cartes graphiques et de la carte mère.
Topologie des voies
128 lignes PCIe Gen4 de l'EPYC vers sept emplacements x16 ; quatre occupés par des GPU en Gen4 x16. Pas de commutateur PCIe. Pas de NVLink — connexion peer-to-peer à 19-22 Go/s (mesurée par Kentino).
Ce que vous pouvez courir
Avec 96 Go de VRAM mutualisée sur 4 cartes, ce serveur prend en charge les LLM à poids ouvert, les modèles de vision, la génération d'images et de vidéos, l'IA vocale et le service multi-locataires.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3 / Qwen3.5 : Qwen3-72B Q4 (~15-20 tok/s) ; Qwen3-32B Q6 ; Qwen3-30B-A3B MoE Q4-Q6 ; Qwen3-Coder-30B-A3B à 256 kbps ; Qwen3.5-122B-A10B Q4 ; QwQ-32B
- Recherche profonde : DeepSeek-R2 32B Q4-Q6 (92.7 % AIME 2025) ; DeepSeek-R1-Distill-Qwen-32B bf16 ; DeepSeek-V2-Lite 16B
- GLM / Z.ai : GLM-4.5-Air 106B/12B Q4-Q5 ; GLM-4.6V-Flash ; GLM-Zero 9B
- Hunyuan : Hunyuan-A13B Q4-Q6 (~48 Go) 256k ctx double mode de fonctionnement
- Autres : Seed-OSS-36B Q4 512k ctx ; ERNIE-4.5-47B-A3B Q4 ; Yi-34B Q6 ; Baichuan-M2-32B ; Step-3.5-Flash
Frontière de l'Ouest
- Méta-lama : Lama 3.3 70B Q4_K_M (~ 20 tok/s lama.cpp, ~ 179 tok/s batch-32 vLLM — Kentino mesuré) ; Lama 3.1 8B bf16 (~80-120 tok/s) ; Lama 4 Scout Q4
- Mistral: Petit 3 24B bf16 ; Magistral Petit 24B raisonnement ; Devstral Petit 2 24B 256k ctx ; Mixtral 8x7B Q6
- OpenAI : gpt-oss-20b MXFP4 (16 Go) ; gpt-oss-120b MXFP4 (80 Go compact)
- Autres : Gemma 3 27B Q6 128k ; Phi-4 14Bbf16 ; Némotron-Super 49B Q4 ; Granit 4.0 H-Petit ; OLMo232B; RekaFlash 3 ; Commandement R 35B
Modèles Vision-Langage
Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B ; InternVL3 jusqu'à 78B Q4 ; StagiaireVL3.5-38B ; DeepSeek-VL2 ; Lama 3.2 11B Vision ; Pixtral 12B ; Molmo 7B ; Gemma 3 12B/27B ; PaliGemma 2 ; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Génération d'images
FLUX.1 [dev]/[schnell] fp8 (~15-25 s par 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Large; SDXL; HunyuanImage-2.1 bf16 (~34 Go) 2K natif; Kolors 2.0; AuraFlow; OmniGen v1.
Génération vidéo
Wan 2.2 T2V-A14B/I2V-A14B MoE (~ 54 Go bf16) ; Wan 2.2 TI2V-5B 720p à 24 ips ; HunyuanVidéo 13B T4-T5 ; HunyuanVidéo 1.5 ; CogVideoX-5B ; Ouvert-Sora 2.0 ; Mochi-1 ; LTX-Vidéo ; SVD/SV3D/SV4D ; NVIDIA Cosmos Prédire 2.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 turbo (~50 fois le temps réel) ; Parakeet-TDT 1.1B ; Canary 1B ; Qwen3-ASR ; SenseVoice
- STT : CosyVoice 3.0 ; Kokoro 82M ; Stable Audio Open ; Step-Audio-EditX
- Temps réél: Kyutai Moshi (200 ms full-duplex) ; Step-Audio 2 mini ; Qwen2.5-Omni-7B
- Musique: MusicGen ; AudioGen ; Suno Bark ; SeamlessM4T v2
Service multi-modèles
- 4 à 8 utilisateurs simultanés sur 32 à 72 milliards de LLM via vLLM / SGLang parallélisme tensoriel
- Configuration mixte : Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi avec VRAM partitionnée
- Réglage fin LoRA/QLoRA 32-72B ; paramètres complets 7-14B
- RAG avec Command R+ ou Qwen3 + BGE-M3/E5/Jina
Charges de travail cibles
- Passerelle d'inférence pour une organisation de 50 à 200 postes (70B Q4-Q6, 4 à 8 sessions simultanées)
- Pipeline de diffusion/vidéo par lots (SDXL + FLUX.1 + Wan 2.2 pendant la nuit)
- Laboratoire de mise au point LoRA/QLoRA pour les adaptations du domaine 7-34B
- Assistant de documents RAG (Qwen3-VL + BGE-M3 + Commande R, 32k ctx)
- Système mixte mono-boîtier : chat + image + reconnaissance vocale + voix en temps réel sur VRAM partitionnée
Performance mesurée
Test de Kentino | 10/04/2026 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T
| référence | Résultat |
|---|---|
| Calcul soutenu (fp16) | 647.7 TFLOPS |
| vLLM Lama 3.3 70B AWQ INT4 (simple) | 8.0 tok/s |
| vLLM Lama 3.3 70B AWQ INT4 (lot-32) | 179.3 tok/s en moyenne |
| lama.cpp Lama 3.3 70B Q4_K_M (simple) | 20.3 tok/s |
| Évaluation rapide | 1 568 tok/s |
| Bande passante de la mémoire GPU | 920 Go/s par carte |
| Lecture/écriture NVMe | 4 589 / 4 213 Mo/s |
| Pic thermique (surchauffe du GPU et du CPU) | 73 °C, baisse de 0.6 % |
vLLM utilisait le noyau awq — 2 à 3 fois possible avec awq_marlin.
Pas idéal pour
- Frontier 100B+ dense à bf16 (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — nécessite 256+ Go de VRAM)
- Formation à partir de zéro (la RTX 4090 grand public ne possède pas de NVLink)
Garantie et délai de livraison
La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Augmentez la RAM à 512 Go (ajoutez 4 barrettes DDR4 de 64 Go — quatre emplacements DIMM disponibles).
- Disque secondaire NVMe de 4 To pour la préparation des ensembles de données/modèles
- Armoire ouverte 24U pour déploiements multi-serveurs
Share
