Kentino Ltd
Serveur K-AI 576 Genoa RTXPro6000MQ 12000TOPS — 6× RTX Pro 6000 Blackwell Max-Q AI Frontier
Serveur K-AI 576 Genoa RTXPro6000MQ 12000TOPS — 6× RTX Pro 6000 Blackwell Max-Q AI Frontier
Impossible de charger la disponibilité du ramassage
K-AI 576 Genoa RTXPro6000MQ 12000TOPS
Serveur Frontier avec 576 Go de VRAM ECC
6x RTX Pro 6000 Max-Q Turbofan | EPYC Genoa | 12 000 TOPS INT8
Références externes publiées. Mesures non effectuées sur du matériel Kentino.
Plateforme d'inférence de pointe au format rack 7U, équipée de six cartes graphiques NVIDIA RTX Pro 6000 Blackwell Max-Q à turboventilateur, totalisant 576 Go de VRAM ECC, d'un processeur AMD EPYC 9354 Genoa (32 cœurs/64 threads), de 768 Go de mémoire DDR5-4800 ECC (12 canaux occupés), d'un disque NVMe de 4 To pour le système d'exploitation et d'une alimentation serveur 5 x 1200 W. Même configuration de puces et de mémoire que la version serveur passive, seul le système de refroidissement diffère. Le turboventilateur Max-Q est intégré à chaque carte, offrant un fonctionnement plus silencieux et une meilleure tolérance aux contraintes de flux d'air du châssis. Dimensions identiques à celles de la version passive.
Hardware
| Composant | Détails |
|---|---|
| GPU | 6 cartes graphiques NVIDIA RTX Pro 6000 Blackwell Max-Q 96 Go ECC (refroidissement par turbine, TDP de 600 W, PCIe 5.0 x16, 2000 TOPS INT8 par carte) |
| Pool de VRAM | 576 Go au total sur 6 cartes (pas de NVLink — P2P sur PCIe Gen5 à environ 55-60 Go/s par direction) |
| Processeur | AMD EPYC 9354 Genoa (32 cœurs/64 threads, 280 W, 128 lignes PCIe 5.0, DDR5 à 12 canaux) |
| Carte mère | ASRock Rack GENOAD8X-2T/BCM (SP5 Genoa, commutateur PCIe Gen5 Broadcom PEX intégré, 12x DDR5, 2x 10 GbE, IPMI) |
| RAM système | 768 Go DDR5-4800 ECC RDIMM (12 x 64 Go — tous les canaux occupés, ~460 Go/s agrégé) |
| Démarrage / stockage | SSD NVMe M.2 de 4 To (PCIe 4.0 x4) — dimensionné pour les points de contrôle frontaliers |
| Source d'alimentation | Ensemble de 5 alimentations serveur de 1200 W (compatibles HP, 6 kW au total) |
| Châssis | Boîtier rack 7U pour 8 GPU, capacité de 10 emplacements PCIe, cartes d'extension actives Gen5 |
| Refroidissement | Refroidisseur tour SP5 Genoa + 8 ventilateurs de châssis de 120 mm. Les turboventilateurs par GPU sont autonomes ; un flux d'air de type centre de données est recommandé, mais non indispensable. Plus silencieux pour les environnements de laboratoire. |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU (spécifications) : 6 x 600 W = 3 600 W
- Puissance totale du système à pleine charge (spécifications) : ~4 080 W
- Puissance totale de l'alimentation : 6 000 W (5 × 1 200 W) — Marge de 32 %
- Les cartes Max-Q consomment généralement entre 520 et 550 W en continu, soit une marge de manœuvre réelle supérieure à 20 %.
Refroidissement (élément de différenciation Max-Q)
Chaque carte aspire l'air de l'avant vers l'arrière grâce à son propre ventilateur autonome. Compatible avec les configurations en rack mixte et en armoire ouverte. Plus silencieuse qu'un système de refroidissement à ventilateurs axiaux équivalent. Le profil Max-Q du firmware privilégie une consommation d'énergie continue plus faible (520-550 W typiquement en interférence). Recommandée : armoire avec porte avant perforée et flux d'air dégagé à l'arrière.
Ce que vous pouvez courir
Identique à la version serveur : même puce, même pool de 576 Go. DeepSeek V3 Q4 (~404 Go) avec contexte long, Kimi-K2 Q2, Mistral Large 3 Q2-Q3, GLM-5 Q2, Qwen3-Coder-480B Q4.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- DeepSeek V3 / R1 / V3.1 / V3.2 Au Q4_K_M (~404 Go), compatible avec un contexte long (~5-8 tok/s vLLM TP-6 unique, référence publiée) ; fp8 natif (~670 Go) avec débordement de RAM
- Kimi-K2 (Base / Instruction / Réflexion) à Q2_K (~375 Go) confortable (~5-8 tok/s unique, référence publiée)
- GLM-5 / GLM-5.1 (~745B/44B) au T2_K (~260 Go) ; Q3 (~ 420 Go) avec déversement de RAM
- Qwen3-Coder-480B-A35B au Q4_K_M (~270 Go) avec un contexte long
- Qwen3-235B-A22B à bf16 (~470 Go) ou fp8 (~240 Go)
- ERNIE-4.5-424B-A47B au quatrième trimestre (~240 Go) avec 128k ctx
- Interne-S1-Pro au Q2_K (~325 Go); Hunyuan-Grand au T4 (~220 Go)
- MiniMax-Texte-01 / M1 au T4 (~260 Go)
Frontière de l'Ouest
- Mistral Grand 3 au Q2-Q3 (~243-317 Go) confortable (~20-30 tok/s simple, référence publiée)
- Llama 4 Maverick au Q4_K_M (~232 Go) avec un ctx long (~45-55 tok/s unique, référence publiée)
- Llama-3.1-Nemotron Ultra 253B à fp8 (~253 Go)
- Grok-1 314 milliards au T4 (~182 Go) ; Flocon de neige Arctique au T4 (~278 Go)
- Instruction DBRX 132 octets/36 octets à bf16 (~264 Go) ou fp8
Modèles Vision-Langage
Qwen3-VL-235B-A22B; InternVL3.5-241B-A28B Q4; GLM-4.5V / 4.6V 106B bf16; Llama 3.2 90B Vision bf16; Pixtral Large 124B fp8; Molmo 72B bf16.
Génération d'images
HunyuanImage-3.0 Instruct; FLUX.1 [dev] / [schnell] / Kontext multi-instance (~15-20 s par image 1024x1024, référence publiée); SD 3.5 Large; SDXL; AuraFlow; OmniGen; HunyuanImage-2.1; Kolors 2.0.
Génération vidéo
Wan 2.2 T2V-A14B double expert MoE bf16 ; HunyuanVideo 13B bf16 ; Open-Sora 2.0 (11B) ; Mochi-1 (10B) ; NVIDIA Cosmos Predict 2 jusqu'à 14B ; CogVideoX-5B ; LTX-Video ; Pyramid Flow.
Audio / Parole / Synthèse vocale
Résidents de la pile complète : Whisper v3 large, Parakeet-TDT 1.1B, Canary 1B, Moshi 7B temps réel, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.
Service multi-modèles / multi-locataires
- DeepSeek V3 Q4 + FLUX + HunyuanVideo + Whisper/Moshi en temps réel, tous résidents
- 70B tensor-parallel + 235B-MoE simultanés sur des domaines PCIe séparés
- 3 modèles de frontière résidents pour l'évaluation A/B
Charges de travail cibles
- Laboratoire de recherche Frontier à poids ouvert avec flux d'air mixte/non idéal
- Colocation / centre de données privé où un turboventilateur par carte est plus simple à utiliser qu'un flux d'air passif complet
- Déploiement d'une IA souveraine avec la pile de modèles Apache 2.0 / MIT
- Plateforme RAG + agentique multimodèle d'entreprise
- Environnements de laboratoire avec racks ouverts
Références de performance publiées
Références externes | Même puce que la version serveur | Mesures non effectuées sur du matériel Kentino
| référence | Résultat |
|---|---|
| RTX Pro 6000 par carte INT8 TOPS | 2 000 TOPS |
| vLLM — DeepSeek V3 Q4 sur 6x RTX Pro 6000 (simple) | ~25-40 tok/s |
| vLLM — DeepSeek V3 Q4 sur 6x RTX Pro 6000 (lot-32) | 200-400 tok/s en moyenne |
| FLUX.1 [dev] fp8 sur une seule RTX Pro 6000 | ~15-20 s par image 1024x1024 |
Les chiffres exacts ont été confirmés lors de la phase de preuve de concept. Kentino publiera ses propres chiffres après la première version destinée aux clients.
Pas idéal pour
- Kimi-K2 / DeepSeek V3 : service de production à vitesse réelle au quatrième trimestre — passez au K-AI 768 TurinDual RTXPro6000MQ
- Formation complète sur des modèles de pointe — sans NVLink
- Déploiement prêt à l'emploi — le ministère de l'Éducation en zone frontalière a besoin d'une équipe MLOps qualifiée
Garantie et délai de livraison
La préparation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, le rodage, le test de mémoire, la vérification fonctionnelle et la configuration de l'environnement LLM. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Carte réseau NVIDIA ConnectX-5 MCX555A-ECAT 100 GbE pour architecture multi-nœuds.
- Deuxième disque NVMe de 4 To pour la bibliothèque de données/modèles
- Baie rack 24U complète avec porte avant perforée
- Onduleur en ligne 10 kVA
- PDU gérée
Share
