Kentino Ltd
K-AI 384 Rome RTXPro6000 — 4× RTX Pro 6000 Blackwell Server Edition (384 Go de VRAM ECC)
K-AI 384 Rome RTXPro6000 — 4× RTX Pro 6000 Blackwell Server Edition (384 Go de VRAM ECC)
Impossible de charger la disponibilité du ramassage
K-AI 384 Rome RTXPro6000 8000TOPS
Serveur de centre de données avec 384 Go de VRAM ECC
4 cartes graphiques RTX Pro 6000 Server Edition | EPYC Milan | 8 000 TOPS INT8
Références externes publiées. Mesures non effectuées sur du matériel Kentino.
Serveur d'inférence rackable 4U équipé de quatre cartes graphiques passives NVIDIA RTX Pro 6000 Blackwell Server Edition (96 Go ECC chacune) totalisant 384 Go de VRAM ECC, d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 384 Go de mémoire DDR4-2666 ECC, d'un disque NVMe de 2 To pour le système d'exploitation et de deux alimentations ATX synchronisées de 2.5 kW. Puce Blackwell avec accélération native FP8. Refroidissement passif par flux d'air pour châssis de centre de données. Compatible avec les cartes graphiques DeepSeek V3 Q3, Mistral Large 3, Qwen3-Coder-480B et tous les principaux modèles Frontier Openweight.
Hardware
| Composant | Détails |
|---|---|
| GPU | 4x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 Go ECC (refroidissement passif pour centre de données, TGP de 600 W, PCIe 5.0 x16, 2000 TOPS INT8/carte, fp8 natif) |
| Pool de VRAM | 384 Go de mémoire ECC cumulée sur 4 cartes |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 384 Go DDR4-2666 ECC RDIMM (6 x 64 Go — 2 emplacements DIMM disponibles pour une mise à niveau jusqu'à 512 Go) |
| Démarrage / stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | 2 alimentations ATX de 2.5 kW avec câble de synchronisation double alimentation (puissance totale de 5 kW) |
| Châssis | Montage en rack 4U |
| Refroidissement | Refroidisseur tour SP3 (Arctic Freezer 4U-M) : flux d'air dirigé de l'avant vers l'arrière (3 entrées d'air de 120 mm à l'avant + 1 extraction de 120 mm à l'arrière). Cartes graphiques passives : nécessite une ventilation adaptée au châssis du centre de données. |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU : 4 x 600 W = 2 400 W
- Puissance totale du système à pleine charge : ~2 775 W
- Puissance totale de l'alimentation : 5 000 W (deux modules de 2.5 kW synchronisés) — marge de 44.5 %
- Double alimentation pour une distribution d'énergie partagée — une panne d'une seule alimentation entraîne la perte de 2 cartes graphiques ou de 2 cartes graphiques et de la carte mère.
Topologie des voies
ROMED8-2T expose 7 ports PCIe 4.0 x16 directement depuis l'EPYC Milan. Quatre emplacements sont occupés, dont trois libres pour la carte réseau, le stockage et la télémétrie. La RTX Pro 6000 est compatible Gen5 ; elle fonctionne en Gen4 à pleine vitesse x16 sur cette plateforme, ce qui élimine tout goulot d'étranglement en termes de bande passante pour l'inférence. Pas de commutateur PCIe. Pas de NVLink.
Ce que vous pouvez courir
Avec 384 Go de VRAM ECC mutualisée sur silicium natif Blackwell fp8, ce serveur exécute confortablement DeepSeek V3 / R1 à Q3 sur carte, Mistral Large 3 Q3, GLM-5 Q3, Qwen3-Coder-480B Q3 et Llama 3.3 70B bf16 résident sur une seule carte (96 Go/carte).
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- DeepSeek V3 / V3-0324 / V3.1 / V3.2 / R1 / R1-0528 Q3 (~290 Go) confortablement sur carte (~30-40 tok/s en une seule opération, référence publiée) ; fp8 natif (~670 Go) avec débordement de RAM
- Qwen3-Coder-480B-A35B Q3 (~350 Go serrés avec débordement de RAM) — Agent de codage ouvert SOTA (~18-25 tok/s unique, référence publiée)
- Qwen3-235B-A22B Q6/Q8 (~200-280 Go) avec un temps de traitement très long et un traitement par lots multi-utilisateurs
- GLM-5 / GLM-5.1 T3 (~317 Go) — Frontière chinoise, proche de Claude Opus 4.6 sur le codage
- Kimi-K2 UD 1.58 bits (~240 Go) — agent à mille milliards de paramètres au débit réel
- Hunyuan-Grand 389B/52B Q4 (~220 Go), fp8 natif (~390 Go de débordement)
- ERNIE-4.5-424B-A47B Q4 (~240 Go); MiniMax-M1 Q4 (~260 Go) 1M-ctx
- Lama 3.3 70B bf16 résident sur une seule carte (96 Go/carte — aucun parallélisme tensoriel nécessaire)
Frontière de l'Ouest
- Mistral Grand 3 (675B/41B MoE, Apache 2.0) Q3 (~317 Go) — poids ouverts de l'Ouest frontalier (~20-30 tok/s simple, référence publiée)
- Llama 4 Maverick (400B/17B) Q4 (~232 Go) avec un budget KV généreux (~45-55 tok/s simple, référence publiée)
- Llama-3.1-Nemotron Ultra 253B Q4-Q6 (~119-207 Go)
- gpt-oss-120b MXFP4 natif (80 Go) avec une capacité de gestion simultanée massive
- Pixtral Large / Mistral Large 2 bf16 (~248 Go); Devstral 2 123B bf16 — 256k top open coding
- Lama 3.3 70B BF16 sur une seule carte ; 4 déploiements simultanés de 70 octets possibles
Modèles Vision-Langage
Qwen3-VL-235B-A22B bf16 (~240 Go) ; InternVL3.5-241B-A28B Q4 (~135 Go) ; Llama 3.2 90B Vision bf16 ; Pixtral Large 124B bf16 (~248 Go) ; Qwen3-Omni-30B-A3B ; Molmo 72B ; ERNIE-4.5-VL ; GLM-4.6V 106B bf16 sur TP. Blackwell fp8 offre un débit environ deux fois supérieur à celui d'Ada pour l'inférence Vision Tower.
Génération d'images
FLUX.1 [dev] / Kontext / Outils en fp8 natif (~15-20 s par image 1024x1024 sur une seule RTX Pro 6000, référence publiée) ; SD 3.5 Large ; HunyuanImage-2.1 (17B natif 2K) ; HunyuanImage-3.0 80B/13B MoE ; AuraFlow ; OmniGen ; 4x processus ComfyUI simultanés.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B double expert bf16 ; HunyuanVideo 13B bf16 les deux experts ; Open-Sora 2.0 (11B) bf16 ; CogVideoX-5B ; Mochi-1 ; LTX-Video ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos Predict 2.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 large / turbo ; Parakeet-TDT 1.1B ; Canary 1B ; Qwen3-ASR ; SenseVoice
- STT : CosyVoice 2/3 ; Kokoro ; Stable Audio Open ; XTTS v2 ; Step-Audio-EditX
- Temps réel / S2S : Kyutai Moshi ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
- Musique / Effets sonores : MusicGen / AudioGen / Bark / SeamlessM4T
Service multi-modèles / multi-locataires
- DeepSeek V3 Q3 + 70B simultanés + FLUX.1 + Whisper tous résidents
- 4 voies de parallélisme tensoriel sur la classe 350-400B au T4
- Isolation des locataires par carte — une carte Llama 3.3 70B bf16 de 96 Go par carte, 4 silos d'inférence indépendants
- RAG multi-modèle : lecteur + réorganisateur + vision + intégrateur, le tout sur un seul hôte
Charges de travail cibles
- Moteur d'inférence à poids ouvert Frontier — DeepSeek V3 Q3, Qwen3-Coder-480B Q3, GLM-5 Q3
- Production de services pour agents multimodaux Llama 4 Maverick Q4 avec un budget de contexte généreux
- Isolation par carte pour 4 locataires — un Llama 3.3 70B bf16 par locataire, zéro contamination croisée
- fp8-native DeepSeek / R1 / Hunyuan fonctionnant sur silicium Blackwell
- Mistral Large 3 Q3 comme alternative au Western Apache-2.0, un modèle de poids libre de type frontier.
Références de performance publiées
Références externes | Mesures non effectuées sur du matériel Kentino
| référence | Résultat |
|---|---|
| RTX Pro 6000 par carte INT8 TOPS | 2 000 TOPS |
| Bande passante mémoire RTX Pro 6000 | ~1 800 Go/s par carte |
| vLLM — DeepSeek V3 Q3 sur 4x Blackwell PCIe (simple) | ~30-40 tok/s |
| vLLM — DeepSeek V3 Q3 sur 4x Blackwell PCIe (lot 8) | ~200 tok/s en moyenne |
| SGLang — Llama 4 Maverick Q4 sur 4x Blackwell (simple) | ~45-55 tok/s |
| llama.cpp — Qwen3-Coder-480B Q3 sur 4x Blackwell (simple) | ~18-25 tok/s |
| FLUX.1 [dev] fp8 sur une seule RTX Pro 6000 | ~1.8 s par image 1024x1024 |
Kentino publiera des chiffres de première main après la première phase de développement chez les clients.
Pas idéal pour
- Pour les charges de travail mono-utilisateur jusqu'à 70 octets, une configuration à 4 RTX 5090 est nettement plus économique pour un pool de 128 Go si la correction d'erreurs ECC et la fiabilité passive ne sont pas requises.
- Déploiement silencieux en laboratoire ou à proximité de bureaux : le refroidisseur passif nécessite une circulation d’air optimale de l’avant vers l’arrière du centre de données. Pour les environnements sensibles au bruit, privilégiez la version à turboventilateur Max-Q (K-AI 384 Rome RTXPro6000MQ).
- Formation Frontier à partir de zéro (sans NVLink)
- Mémoire DeepSeek V3 Q4 complète intégrée (~404 Go) — mise à niveau vers 6 cartes RTX Pro 6000 / 576 Go
Garantie et délai de livraison
L'assemblage comprend l'installation, la configuration du BIOS, l'installation des pilotes, le rodage, le test de mémoire et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Augmentez la RAM à 512 Go DDR4 (ajoutez 2 x 64 Go — 2 emplacements DIMM libres) pour bénéficier d'une marge de sécurité supplémentaire en cas de débordement de RAM lors des analyses quantitatives de pointe du troisième trimestre.
- 4 disques NVMe Gen4 x4 de 4 To pour la bibliothèque de modèles Frontier (DeepSeek V3 Q3 occupe à lui seul environ 290 Go sur disque).
- Baie rack 24U complète avec PDU géré et onduleur en ligne
- Silhouette alternative : variante Max-Q à turboventilateur (K-AI 384 Rome RTXPro6000MQ) — même puce, refroidisseur à turbine plus silencieux, pour les déploiements en laboratoire
Share
