Pomiń, pour fournir des informations sur la production
1 z 7

Kentino Ltd

K-AI 576 Genoa RTXPro6000 12000TOPS — Serveur IA Frontier Edition Blackwell avec 6 cartes graphiques RTX Pro 6000

K-AI 576 Genoa RTXPro6000 12000TOPS — Serveur IA Frontier Edition Blackwell avec 6 cartes graphiques RTX Pro 6000

Prix ​​régulier €106.069,00 EUR
Prix ​​régulier Prix ​​promotionnel €106.069,00 EUR
En promotion Épuisé
Avec quels noms podatkami. Frais de port Calculé à la caisse.

K-AI 576 Genoa RTXPro6000 12000TOPS

Serveur de recherche Frontier avec 576 Go de VRAM ECC
6 cartes graphiques RTX Pro 6000 Server Edition | EPYC Genoa | 12 000 TOPS INT8

12:000
TOPS INT8
576 GB
Pool de VRAM ECC
BCM
Commutateur PCIe Gen5
frontière
recherche sur site

Références externes publiées. Mesures non effectuées sur du matériel Kentino.

Plateforme d'inférence de pointe au format rack 7U, équipée de six cartes graphiques passives NVIDIA RTX Pro 6000 Blackwell Server Edition totalisant 576 Go de VRAM ECC, d'un processeur AMD EPYC 9354 Genoa (32 cœurs/64 threads), de 768 Go de mémoire DDR5-4800 ECC (12 canaux occupés), d'un disque NVMe de 4 To pour le système d'exploitation et d'une alimentation serveur 5 x 1200 W. Un commutateur PCIe Gen5 Broadcom intégré distribue uniformément la mémoire sur les six emplacements GPU. Compatible avec les cartes DeepSeek V3 Q4 (~404 Go) pour le traitement de longs contextes, Kimi-K2 Q2 et Mistral Large 3 Q2-Q3 : une infrastructure sur site de pointe.

Hardware

Composant Détails
GPU 6 cartes graphiques NVIDIA RTX Pro 6000 Blackwell Server Edition 96 Go ECC (passives, 600 W, PCIe 5.0 x16, 2000 TOPS INT8 par carte)
Pool de VRAM 576 Go au total sur 6 cartes (pas de NVLink — P2P sur PCIe Gen5 à environ 55-60 Go/s par direction)
Processeur AMD EPYC 9354 Genoa (32 cœurs/64 threads, 280 W, 128 lignes PCIe 5.0, DDR5 à 12 canaux)
Carte mère ASRock Rack GENOAD8X-2T/BCM (SP5 Genoa, commutateur PCIe Gen5 Broadcom PEX intégré, 12x DDR5, 2x 10 GbE, IPMI)
RAM système 768 Go DDR5-4800 ECC RDIMM (12 x 64 Go — tous les canaux occupés, ~460 Go/s agrégé)
Démarrage / stockage SSD NVMe M.2 de 4 To (PCIe 4.0 x4) — dimensionné pour les points de contrôle frontaliers
Source d'alimentation Ensemble de 5 alimentations serveur de 1200 W (compatibles HP, 6 kW au total)
Châssis Boîtier rack 7U pour 8 GPU, capacité de 10 emplacements PCIe, cartes d'extension actives Gen5
Refroidissement Refroidisseur tour SP5 Genoa, 8 ventilateurs de châssis de 120 mm, flux d'air avant-arrière requis pour les centres de données. Cartes graphiques passives.
Réseau Double interface Ethernet 10 GbE intégrée (Intel X550)

Enveloppe de puissance

  • Consommation du GPU : 6 x 600 W = 3 600 W
  • Puissance totale du système à pleine charge : ~4 080 W
  • Puissance totale de l'alimentation : 6 000 W (5 × 1 200 W) — Marge de 32 %
  • Aucune limite de puissance requise pour l'inférence en régime permanent

Topologie des voies

La carte mère GENOAD8X-2T/BCM intègre un commutateur PCIe Gen5 Broadcom PEX. 128 lignes Gen5, issues du processeur graphique EPYC Genoa, sont acheminées en amont du commutateur et distribuées uniformément aux 6 emplacements GPU en Gen5 x16 via des risers actifs. Topologie mono-processeur simplifiée : configuration NUMA plus simple qu'avec une architecture bi-processeur. Pas de NVLink ; débit P2P d'environ 55 à 60 Go/s par sens.

Ce que vous pouvez courir

Avec 576 Go de VRAM ECC mutualisée sur silicium natif Blackwell fp8, ce serveur exécute l'ensemble de la frontière ouverte chinoise + occidentale à des niveaux quantitatifs de recherche : DeepSeek V3 Q4 (~404 Go) avec contexte long, Kimi-K2 Q2, Mistral Large 3 Q2-Q3, GLM-5 Q2, Qwen3-Coder-480B Q4.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • DeepSeek V3 / R1 / V3.1 / V3.2 Au Q4_K_M (~404 Go), compatible avec un contexte long (~5-8 tok/s vLLM TP-6 ​​unique, référence publiée) ; fp8 natif (~670 Go) avec débordement de RAM
  • Kimi-K2 (Base / Instruction / Réflexion) à Q2_K (~375 Go) confortable (~5-8 tok/s unique, référence publiée)
  • GLM-5 / GLM-5.1 (~745 octets/44 octets) au Q2_K (~260 Go) confortable ; Q3 (~420 Go) avec débordement de RAM
  • Qwen3-Coder-480B-A35B au Q4_K_M (~270 Go) avec un contexte long
  • Qwen3-235B-A22B à bf16 (~470 Go) ou fp8 (~240 Go)
  • ERNIE-4.5-424B-A47B au quatrième trimestre (~240 Go) avec CTX 128k complet
  • Interne-S1-Pro (1 To/22 Go actifs, SAGE) au Q2_K (~325 Go) confortable
  • Hunyuan-Grand A52B au quatrième trimestre (~220 Go) ; MiniMax-M1 au T4 (~260 Go)

Frontière de l'Ouest

  • Mistral Grand 3 (675B/41B MoE, Apache 2.0) au T2-T3 (~243-317 Go) confortable (~20-30 tok/s unique, référence publiée)
  • Llama 4 Maverick (400B/17B) à Q4_K_M (~232 Go) avec un ctx long (~45-55 tok/s unique, référence publiée)
  • Llama-3.1-Nemotron Ultra 253B à fp8 (~253 Go) ou bf16 avec débordement de RAM
  • Grok-1 314 milliards au T4 (~182 Go) ; Flocon de neige Arctique au T4 (~278 Go)
  • Instruction DBRX 132 octets/36 octets à bf16 (~264 Go) ou instance multiple de fp8
  • Tous les modèles de classe 70-120B au niveau du bf16 avec de la place en plus

Modèles Vision-Langage

Qwen3-VL-235B-A22B flagship VLM; InternVL3.5-241B-A28B Q4 (~135 Go); GLM-4.5V / 4.6V 106B bf16 (~210 Go); Llama 3.2 90B Vision bf16; Pixtral Large 124B fp8; Molmo 72B bf16.

Génération d'images

HunyuanImage-3.0 Niveau d'instruction (3 x 80 Go) — compatible avec marge de manœuvre ; FLUX.1 [dev] / [schnell] / Kontext multi-instance (~15-20 s par image 1024x1024 sur une seule RTX Pro 6000 fp8, référence publiée) ; SD 3.5 Large ; SDXL ; AuraFlow ; OmniGen ; HunyuanImage-2.1 ; Kolors 2.0.

Génération vidéo

Wan 2.2 T2V-A14B / I2V-A14B double expert MoE bf16 (~54 Go) ; HunyuanVideo 13B bf16 confortable ; Open-Sora 2.0 (11B) bf16 ; Mochi-1 (10B) fp16 ; NVIDIA Cosmos Predict 2 jusqu'à 14B ; CogVideoX-5B ; LTX-Video ; Pyramid Flow.

Audio / Parole / Synthèse vocale

Pile complète résidente simultanément : Whisper v3 large, Parakeet-TDT 1.1B, Canary 1B, Moshi 7B temps réel, Qwen3-Omni, Step-Audio R1, CosyVoice 3.0, Kokoro, Stable Audio Open.

Service multi-modèles / multi-locataires

  • DeepSeek V3 Q4 (inférence + image FLUX + HunyuanVideo + voix en temps réel Whisper/Moshi) : tous ces éléments sont intégrés simultanément.
  • 70B tensor-parallel + 235B-MoE simultanés sur des domaines PCIe distincts via le commutateur Broadcom
  • Évaluation A/B de la recherche : 3 modèles de pondération ouverts de frontière résidant simultanément

Charges de travail cibles

  • Laboratoire de recherche Frontier à poids ouvert — accès sur site aux systèmes DeepSeek V3 / Kimi-K2 / Mistral Large 3 sans sortie cloud
  • Déploiement d'une IA souveraine — Résidence des données dans l'UE avec une architecture Apache 2.0/MIT
  • Plateforme RAG + agentique multimodèle d'entreprise — plusieurs modèles MoE résidents de 200 à 400 milliards
  • Évaluation du modèle / recherche sur la sécurité comparant les poids libres chinois et occidentaux
  • Inférence à grande échelle pour les industries réglementées exigeant une isolation physique + ECC + PCIe Gen5

Références de performance publiées

Références externes | Mesures non effectuées sur du matériel Kentino

référence Résultat
RTX Pro 6000 par carte INT8 TOPS 2 000 TOPS
vLLM — DeepSeek V3 Q4 sur 6x RTX Pro 6000 (simple) ~25-40 tok/s
vLLM — DeepSeek V3 Q4 sur 6x RTX Pro 6000 (lot-32) 200-400 tok/s en moyenne
FLUX.1 [dev] fp8 sur une seule RTX Pro 6000 ~15-20 s par image 1024x1024

Les chiffres exacts ont été confirmés lors de la phase de preuve de concept. Kentino publiera ses propres chiffres après la première version destinée aux clients.

Pas idéal pour

  • Kimi-K2 / DeepSeek V3 : production à vitesse réelle au quatrième trimestre – passez au double Turin de 768 Go
  • Formation complète sur des modèles de pointe — sans NVLink, uniquement PCIe P2P
  • Déploiement prêt à l'emploi — le ministère de l'Éducation en zone frontalière a besoin d'une équipe MLOps qualifiée

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La configuration inclut l'assemblage, la configuration du BIOS, l'installation des pilotes, le rodage, le test de mémoire, la vérification fonctionnelle et la configuration de l'environnement LLM (pile vLLM / SGLang / llama.cpp / CUDA 13 avec noyaux fp8 Blackwell). Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • Carte réseau NVIDIA ConnectX-5 MCX555A-ECAT 100 GbE pour architecture multi-nœuds.
  • Deuxième disque NVMe de 4 To pour la bibliothèque de données/modèles
  • Baie rack 24U complète avec porte avant perforée
  • Onduleur en ligne 10 kVA
  • PDU gérée
Pokaż kompletne danois