Kentino Ltd
K-AI 384 Rome RTXPro6000MQ — 4× RTX Pro 6000 Blackwell Max-Q Turbofan (384 Go de VRAM ECC)
K-AI 384 Rome RTXPro6000MQ — 4× RTX Pro 6000 Blackwell Max-Q Turbofan (384 Go de VRAM ECC)
Impossible de charger la disponibilité du ramassage
K-AI 384 Rome RTXPro6000MQ 8000TOPS
Serveur de laboratoire avec 384 Go de VRAM ECC
4x RTX Pro 6000 Max-Q Turbofan | EPYC Milan | 8 000 TOPS INT8
Références externes publiées. Mesures non effectuées sur du matériel Kentino.
Serveur d'inférence rackable 4U équipé de quatre cartes graphiques NVIDIA RTX Pro 6000 Blackwell Max-Q à refroidissement par turbine (96 Go ECC chacune) totalisant 384 Go de VRAM ECC, d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 384 Go de mémoire DDR4-2666 ECC, d'un disque NVMe de 2 To pour le système d'exploitation et d'une double alimentation ATX de 2.5 kW synchronisée. Il utilise la même puce Blackwell que la version serveur (mêmes performances d'inférence, mêmes débits), avec un système de refroidissement par turbine plus silencieux, idéal pour les laboratoires, la R&D et les environnements de bureau.
Hardware
| Composant | Détails |
|---|---|
| GPU | 4x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 Go ECC (turbofan / refroidisseur à turbine, 600 W TGP, PCIe 5.0 x16, 2000 INT8 TOPS/carte, fp8 natif) |
| Pool de VRAM | 384 Go de mémoire ECC cumulée sur 4 cartes |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 384 Go DDR4-2666 ECC RDIMM (6 x 64 Go — 2 emplacements DIMM disponibles pour une mise à niveau jusqu'à 512 Go) |
| Démarrage / stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | 2 alimentations ATX de 2.5 kW avec câble de synchronisation double alimentation (puissance totale de 5 kW) |
| Châssis | Montage en rack 4U |
| Refroidissement | Ventirad SP3 (Arctic Freezer 4U-M) avec flux d'air dirigé de l'avant vers l'arrière (3 entrées d'air de 120 mm à l'avant + 1 extraction de 120 mm à l'arrière). Refroidissement interne des cartes graphiques par un ventilateur turbo (extraction arrière) : fonctionnement plus silencieux pour les environnements de laboratoire. |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU : 4 x 600 W = 2 400 W
- Puissance totale du système à pleine charge : ~2 775 W
- Puissance totale de l'alimentation : 5 000 W (deux modules de 2.5 kW synchronisés) — marge de 44.5 %
- Double alimentation pour une distribution d'énergie partagée — une panne d'une seule alimentation entraîne la perte de 2 cartes graphiques ou de 2 cartes graphiques et de la carte mère.
Profil thermique (Max-Q)
La carte Max-Q utilise un système de refroidissement par turboventilateur avec extraction directionnelle de la chaleur à l'arrière. La température du GPU devrait atteindre 72 à 80 °C en charge continue. Elle est nettement plus silencieuse que les cartes passives dans un châssis à haute pression statique. Elle est particulièrement adaptée aux environnements hors centre de données, aux racks ouverts ou aux espaces de travail adjacents aux laboratoires et bureaux. La puce, le TDP, la mémoire ECC et les performances sont identiques à celles de la version serveur.
Ce que vous pouvez courir
Identique à la version serveur (K-AI 384 Rome RTXPro6000) : même puce Blackwell, même mémoire ECC de 384 Go, même compatibilité native fp8, même modèle. La différence est acoustique, non liée aux performances.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- DeepSeek V3 / V3-0324 / V3.1 / V3.2 / R1 / R1-0528 Q3 (~290 Go) confortablement sur carte (~30-40 tok/s en une seule opération, référence publiée) ; fp8 natif (~670 Go) avec débordement de RAM
- Qwen3-Coder-480B-A35B Q3 (~350 Go serrés avec débordement de RAM) — Agent de codage ouvert SOTA (~18-25 tok/s unique, référence publiée)
- Qwen3-235B-A22B Q6/Q8 (~200-280 Go) avec ctx long et traitement par lots multi-utilisateurs
- GLM-5 / GLM-5.1 T3 (~317 Go) — Frontière chinoise, proche de Claude Opus 4.6 sur le codage
- Kimi-K2 UD 1.58 bits (~240 Go) — agent à mille milliards de paramètres au débit réel
- Hunyuan-Grand 389B/52B Q4 (~220 Go), fp8 natif (~390 Go de débordement)
- ERNIE-4.5-424B-A47B Q4 (~240 Go); MiniMax-M1 Q4 (~260 Go) 1M-ctx
- Lama 3.3 70B bf16 résident sur une seule carte (96 Go/carte)
Frontière de l'Ouest
- Mistral Grand 3 (675B/41B MoE, Apache 2.0) Q3 (~317 Go) — poids ouverts de l'Ouest frontalier (~20-30 tok/s simple, référence publiée)
- Llama 4 Maverick (400B/17B) Q4 (~232 Go) avec un budget KV généreux (~45-55 tok/s simple, référence publiée)
- Llama-3.1-Nemotron Ultra 253B Q4-Q6 (~119-207 Go)
- gpt-oss-120b MXFP4 natif (80 Go) avec marge de manœuvre pour les flottes simultanées
- Pixtral Large / Mistral Large 2 bf16 (~248 Go); Devstral 2 123B bf16 — 256k top open coding
- Lama 3.3 70B BF16 sur une seule carte ; 4 déploiements simultanés de 70 octets possibles
Modèles Vision-Langage
Qwen3-VL-235B-A22B bf16 (~240 Go) ; InternVL3.5-241B-A28B Q4 (~135 Go) ; Llama 3.2 90 octets Vision bf16 ; Pixtral Large 124 octets bf16 ; Qwen3-Omni-30B-A3B ; Molmo 72 octets ; ERNIE-4.5-VL ; GLM-4.6V 106 octets bf16 sur TP. Blackwell fp8 offre un débit environ deux fois supérieur à celui d'Ada pour l'inférence Vision Tower.
Génération d'images
FLUX.1 [dev] / Kontext / Outils en fp8 natif (~15-20 s par image 1024x1024 sur une seule RTX Pro 6000, référence publiée) ; SD 3.5 Large ; HunyuanImage-2.1 (17B natif 2K) ; HunyuanImage-3.0 80B/13B MoE ; AuraFlow ; OmniGen ; 4x processus ComfyUI simultanés.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B double expert bf16 ; HunyuanVideo 13B bf16 les deux experts ; Open-Sora 2.0 (11B) bf16 ; CogVideoX-5B ; Mochi-1 ; LTX-Video ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos Predict 2.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 large / turbo ; Perruche-TDT ; Canari ; Qwen3-ASR ; SenseVoice
- STT : CosyVoice 2/3 ; Kokoro ; Stable Audio Open ; XTTS v2 ; Step-Audio-EditX
- Temps réel / S2S : Kyutai Moshi ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
- Musique / Effets sonores : MusicGen / AudioGen / Bark / SeamlessM4T
Service multi-modèles / multi-locataires
- DeepSeek V3 Q3 + 70B simultanés + FLUX.1 + Whisper tous résidents
- 4 voies de parallélisme tensoriel sur la classe 350-400B au T4
- Isolation des locataires par carte — une carte Llama 3.3 70B bf16 de 96 Go par carte, 4 silos d'inférence indépendants
- RAG multi-modèle : lecteur + réorganisateur + vision + intégrateur, le tout sur un seul hôte
Charges de travail cibles
- Inférence à poids ouvert de pointe pour une équipe de laboratoire/R&D où le budget acoustique est crucial.
- Salle serveur pour petite équipe sans ventilation dédiée de centre de données — Le système d'auto-refroidissement Max-Q tolère l'installation en rack ouvert
- Poste de travail IA attenant aux bureaux pour une équipe de spécialistes (recherche en apprentissage automatique, outils d'agentivité)
- Service natif fp8 (DeepSeek / R1 / Hunyuan) en environnement de laboratoire
- Charge de travail d'isolation par carte pour 4 locataires avec budget de bruit
Références de performance publiées
Références externes | Même puce que la version serveur | Mesures non effectuées sur du matériel Kentino
| référence | Résultat |
|---|---|
| RTX Pro 6000 par carte INT8 TOPS | 2 000 TOPS |
| Bande passante mémoire RTX Pro 6000 | ~1 800 Go/s par carte |
| vLLM — DeepSeek V3 Q3 sur 4x Blackwell PCIe (simple) | ~30-40 tok/s |
| vLLM — DeepSeek V3 Q3 sur 4x Blackwell PCIe (lot 8) | ~200 tok/s en moyenne |
| SGLang — Llama 4 Maverick Q4 sur 4x Blackwell (simple) | ~45-55 tok/s |
| llama.cpp — Qwen3-Coder-480B Q3 sur 4x Blackwell (simple) | ~18-25 tok/s |
| FLUX.1 [dev] fp8 sur une seule RTX Pro 6000 | ~1.8 s par image 1024x1024 |
Kentino publiera des chiffres de première main après la première phase de développement chez les clients.
Pas idéal pour
- Pour les déploiements de racks de centres de données appropriés avec flux d'air établi dans les allées chaudes, choisissez plutôt la version serveur passive (K-AI 384 Rome RTXPro6000) : même puce, mécaniquement plus simple.
- Charges de travail mono-utilisateur jusqu'à 70 octets (4 RTX 5090 sont sensiblement moins chères pour un pool de 128 Go)
- Formation Frontier à partir de zéro (sans NVLink)
- Mémoire DeepSeek V3 Q4 complète intégrée (~404 Go) — mise à niveau vers 6 cartes RTX Pro 6000 / 576 Go
Garantie et délai de livraison
L'assemblage comprend l'installation, la configuration du BIOS, l'installation des pilotes, le rodage, le test de mémoire et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Augmentez la RAM à 512 Go DDR4 (ajoutez 2 x 64 Go — 2 emplacements DIMM libres) pour bénéficier d'une marge de sécurité supplémentaire en cas de débordement de RAM lors des analyses quantitatives de pointe du troisième trimestre.
- 4 disques NVMe Gen4 x4 de 4 To pour la bibliothèque de modèles Frontier (DeepSeek V3 Q3 occupe à lui seul environ 290 Go sur disque).
- Baie rack 24U complète avec PDU géré et onduleur en ligne
- Silhouette alternative : Server Edition passive (K-AI 384 Rome RTXPro6000) — même puce, pour les déploiements en flux d’air dans les centres de données
Share
