Kentino Ltd
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — Serveur d'IA Frontier 8× RTX Pro 6000 Blackwell Max-Q (Dual Turin)
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — Serveur d'IA Frontier 8× RTX Pro 6000 Blackwell Max-Q (Dual Turin)
Impossible de charger la disponibilité du ramassage
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS
Frontier Flagship avec 768 Go de VRAM ECC
8 cartes graphiques RTX Pro 6000 Max-Q | Double processeur EPYC Turin | 16 000 TOPS INT8
Prix du processeur finalisé à la commande — Le marché de la série Turin 9005 évolue chaque semaine au deuxième trimestre 2026.
Références externes publiées. Mesures non effectuées sur du matériel Kentino.
Haut de gamme des serveurs d'IA Kentino. Plateforme d'inférence de pointe au format rack 7U, équipée de huit cartes graphiques NVIDIA RTX Pro 6000 Blackwell Max-Q turbofan totalisant 768 Go de VRAM ECC, de deux processeurs AMD EPYC Turin série 9005 (Zen5c, SP5), de 1.5 To de mémoire DDR5-4800 ECC (24 canaux occupés), d'un disque NVMe de 4 To pour le système et d'une alimentation serveur 5 x 1200 W. Interface PCIe Gen5 de bout en bout. Mémoire DeepSeek V3 fp8 native (~670 Go) intégrée. Processeur Kimi-K2 Q4-Q5. Capacité de quatre serveurs de pointe fonctionnant simultanément.
Hardware
| Composant | Détails |
|---|---|
| GPU | 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 Go ECC (turbofan, spécification TDP de 600 W, PCIe 5.0 x16, 2000 TOPS INT8/carte, fp8 natif) |
| Pool de VRAM | 768 Go au total sur 8 cartes (pas de NVLink — P2P sur PCIe Gen5 à environ 55-60 Go/s au sein du socket, entre sockets via l'interconnexion du processeur) |
| Processeur | 2 processeurs AMD EPYC Turin série 9005 (Zen5c, SP5, PCIe 5.0) — devis en cours, référence exacte confirmée lors de la commande |
| Carte mère | ASRock Rack TURIN2D24XGM/500W (double SP5 Turin, PCIe 5.0, 24x DDR5, 2x 10 GbE, IPMI) |
| RAM système | 1.5 To DDR5-4800 ECC RDIMM (24 x 64 Go — les 24 canaux sont occupés, ~920 Go/s agrégés) |
| Démarrage / stockage | SSD NVMe M.2 de 4 To (PCIe 4.0 x4) — dimensionné pour les points de contrôle frontaliers |
| Source d'alimentation | Ensemble de 5 alimentations serveur de 1200 W (6 kW au total) |
| Châssis | Boîtier rack 7U pour 8 GPU, capacité de 10 emplacements PCIe, cartes d'extension actives Gen5 |
| Refroidissement | 2 refroidisseurs tour SP5 Turin + 8 ventilateurs de châssis Martech de 120 mm. Ventilateurs turbo par GPU intégrés. |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU (spécifications) : 8 x 600 W = 4 800 W
- Consommation du processeur : 2 x 360 W = 720 W (estimation pour un processeur de milieu de gamme à Turin)
- Puissance totale du système à pleine charge (spécifications) : ~5 720 W
- Puissance totale de l'alimentation : 6 000 W — marge de puissance brute d'environ 4.7 % selon les spécifications
- En pratique : le Max-Q maintient une puissance d’inférence de 520 à 550 W, ce qui porte la marge dynamique à environ 20 %.
- Limitation de puissance par firmware à 520 W disponible pour une marge de manœuvre garantie
Topologie des voies
La carte mère Turin Dual offre 2 lignes PCIe Gen5 de 128 bits. La TURIN2D24XGM/500W achemine 8 emplacements GPU directement connectés aux processeurs en Gen5 x16 via des risers actifs (4 emplacements par processeur). Aucun commutateur PCIe n'est présent sur le chemin GPU, ce qui garantit une topologie double racine optimisée. Un réglage NUMA est nécessaire pour une communication peer-to-peer optimale entre les sockets. La technologie NVLink n'est pas prise en charge ; le débit P2P atteint environ 55 à 60 Go/s par direction au sein d'un même socket.
Ce que vous pouvez courir
Avec 768 Go de VRAM ECC mutualisée — le maximum de l'enveloppe Kentino — ce serveur exécute DeepSeek V3 fp8 natif (~670 Go) sur carte, Kimi-K2 Q4-Q5 (~630 Go) confortablement, et le cas d'utilisation déterminant : 4 modèles de classe frontière résidant simultanément pour la diffusion de production multi-locataires.
Masters en droit (LLM) — texte / raisonnement / programmation
Frontière chinoise en matière de quantification de la production
- Kimi-K2 (Base / Instruction / Réflexion) à Q4_K_M / Q5_K_M (~630 Go) confortable (~15-25 tok/s unique, référence publiée) — fleuron chinois de la frontière sur un seul boîtier aux quantités de production
- DeepSeek V3 / R1 / V3.1 / V3.2 à fp8 natif (~670 Go) sur carte (~30-50 tok/s en mode unique, référence publiée) — Les cœurs tenseurs fp8 de Blackwell exécutent cela nativement à cette vitesse
- Recherche profonde V3 au Q4_K_M (~404 Go) avec plusieurs instances de service par lots volumineuses simultanées
- GLM-5 / GLM-5.1 (~745B/44B) au T3-T4 (~420-560 Go) confortablement sur la carte
- Interne-S1-Pro (1 To/22 Go actifs, SAGE) au 3e-4e trimestre (environ 440-580 Go) confortable
- Qwen3-Coder-480B-A35B au 5e-6e trimestre (environ 340-400 Go) avec 1 Mbit/s
- Qwen3-235B-A22B à bf16 (~470 Go) avec un KV généreux pour un contexte long
- ERNIE-4.5-424B-A47B au Q6 (~360 Go) ; Hunyuan-Grand à fp8 (~390 Go)
- MiniMax-Texte-01 / M1 au T5-T6 (~325-390 Go)
Frontière occidentale en matière de quantification de la production
- Mistral Grand 3 (675B/41B MoE, Apache 2.0) au T3-T4 (~317-404 Go) confortable (~20-30 tok/s unique, référence publiée)
- Llama 4 Maverick (400 milliards/17 milliards, 128 experts) au 5e-6e trimestre (~290-350 Go)
- Llama-3.1-Nemotron Ultra 253B à bf16 (~506 Go) sur carte
- Flocon de neige Arctique au T5-T6 (~350-420 Go); Grok-1 au T5-T6 (~225-270 Go)
- Instruction DBRX 132 octets/36 octets à bf16 (~264 Go) multi-instance
Modèles Vision-Langage
Qwen3-VL-235B-A22B VLM phare avec contexte long ; InternVL3.5-241B-A28B à bf16 (~482 Go) ; GLM-4.5V / 4.6V 106B bf16 multi-instance ; Llama 3.2 90B Vision bf16 multi-instance ; Pixtral Large 124B bf16 ; Molmo 72B bf16 multi-instance.
Génération d'images
HunyuanImage-3.0 : instances simultanées ; FLUX.1 multi-instance (environ 15 à 20 s par image 1024x1024, référence publiée) ; SD 3.5 Large ; SDXL ; AuraFlow ; OmniGen ; HunyuanImage-2.1 ; Kolors 2.0 — pile d’images chinoises et occidentales complète, en simultané.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B — nombreux flux simultanés ; HunyuanVideo 13B bf16 plusieurs flux simultanés ; Open-Sora 2.0 (11B) multi-instance ; Mochi-1 (10B) multi-instance ; NVIDIA Cosmos Predict 2 jusqu'à 14B.
Audio / Parole / Synthèse vocale
Pile complète résidente au lot : Whisper v3 large, Parakeet-TDT, Canary 1B, Moshi 7B temps réel, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.
Service multi-modèles / multi-locataires (cas d'utilisation déterminant)
- Production multi-locataires à la pointe de la technologie : 4 modèles de classe Frontier résidant simultanément — par exemple DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 — avec VRAM partitionnée et SLO par locataire
- Inférence Blackwell native fp8 simultanée (famille DeepSeek V3 / R1, Hunyuan fp8) + diffusion quantifiée sur des domaines PCIe distincts
- Recherche A/B sur 4 à 5 modèles ouverts à pondération frontière avec des quants de niveau recherche
- Plateforme Agentic avec un résident principal de plus de 400 milliards de dollars et plusieurs spécialistes résidents de 30 à 70 milliards de dollars
Charges de travail cibles
- Production multi-locataires à poids ouvert — plusieurs modèles frontaliers résidant simultanément avec isolation par locataire
- Déploiement d'IA à la frontière de la souveraineté — accès sur site DeepSeek V3 fp8 / Kimi-K2 / Mistral Large 3, résidence des données dans l'UE
- Laboratoire de recherche de pointe avec évaluation A/B sur plus de 4 modèles ouverts pondérés de pointe, avec des quants de niveau recherche.
- Plateforme d'agents d'entreprise où plus de 400 milliards de dollars d'efforts de gestion des ressources humaines (MoE) pilotent des outils et de multiples modèles spécialisés
- Inférence industrielle réglementée isolée du réseau à l'échelle de la frontière avec ECC + PCIe Gen5
Références de performance publiées
Références externes | Mesures non effectuées sur du matériel Kentino
| référence | Résultat |
|---|---|
| RTX Pro 6000 par carte INT8 TOPS | 2 000 TOPS |
| vLLM — DeepSeek V3 fp8 sur 8x RTX Pro 6000 (simple) | ~30-50 tok/s |
| vLLM — DeepSeek V3 fp8 sur 8x RTX Pro 6000 (lot 32) | 300-500 tok/s en moyenne |
| Kimi-K2 Q4 en service sur 8x RTX Pro 6000 (simple) | ~15-25 tok/s |
| FLUX.1 [dev] fp8 sur une seule RTX Pro 6000 | ~15-20 s par image 1024x1024 |
Les chiffres exacts ont été confirmés lors de la phase de preuve de concept. Kentino publiera ses propres chiffres après la première version destinée aux clients.
Pas idéal pour
- Déploiements économiques — référence phare à prix phare
- Formation à partir de zéro sur des modèles de pointe — sans NVLink, uniquement PCIe P2P (pour une formation à cette échelle, le H100/H200 SXM ou le GB200 NVLink Fabric est l'outil approprié)
- Déploiement plug-and-play — le service MoE multi-locataire de pointe nécessite une équipe MLOps compétente
Garantie et délai de livraison
La configuration inclut l'assemblage, la configuration du BIOS, l'installation des pilotes, le rodage, le test de mémoire, la vérification fonctionnelle, l'optimisation NUMA et la configuration de l'environnement LLM (pile vLLM / SGLang / llama.cpp / CUDA 13 avec noyaux fp8 Blackwell). Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Carte réseau NVIDIA ConnectX-5 MCX555A-ECAT ou ConnectX-7 Gen5 100 GbE pour une architecture multi-nœuds extensible.
- Mellanox ConnectX-6 25 GbE SFP28 pour infrastructure de centre de données
- Un deuxième disque NVMe de 4 To est destiné à la bibliothèque de données/modèles (les points de contrôle Frontier sont volumineux — Kimi-K2 bf16 à lui seul pèse environ 1 To).
- Baie rack 24U complète avec porte avant perforée et PDU administrable
- Onduleur en ligne 10 kVA (arrêt progressif en cas de coupure de courant)
Share
