Passer aux informations sur le produit
1 of 7

Kentino Ltd

K-AI 192 Rome RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milan

K-AI 192 Rome RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — EPYC Milan

Prix ​​habituel €25.162,00 EUR
Prix ​​habituel Prix ​​de vente €25.162,00 EUR
Soldes Épuisé
Taxes incluses. Hors transport Livraison calculés à la caisse

K-AI 192 Rome RTXPro6000 4000TOPS

Paire de disques haut de gamme Blackwell ECC 192 Go
2 cartes graphiques RTX Pro 6000 Server Edition | EPYC Milan | 4 000 TOPS INT8

4:000
INT8 TOPS
192 GB
VRAM ECC
Blackwell
fp8 natif
2 cartes
minimum de TP

Deux cartes RTX Pro 6000 Blackwell Server Edition passives — 96 Go de mémoire ECC chacune. Moins de surcharge liée au parallélisme des tenseurs qu'avec des configurations à 4 ou 8 cartes. Le duo phare pour les centres de données.

Un serveur d'inférence rackable 4U équipé de deux cartes RTX Pro 6000 Blackwell Server Edition passives (96 Go ECC GDDR7 par carte), d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 256 Go de mémoire DDR4 ECC, d'un disque NVMe de 2 To pour le démarrage et d'une alimentation ATX de 2 kW. Pour les configurations bf16 à haute densité (70 octets) et les MoE de taille moyenne, privilégier un nombre réduit de cartes hautes performances est plus avantageux que de nombreuses cartes basses : le parallélisme tensoriel à deux cartes minimise la surcharge de communication, et chaque carte de 96 Go intègre une copie complète de la plupart des modèles.

Hardware

Composant Détails
GPU 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 Go ECC GDDR7 (passive, 600 W, PCIe 5.0 x16, double emplacement)
Pool de VRAM 192 Go ECC (2 x 96 Go) — chaque carte contient un modèle 70B bf16 autonome
Processeur AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
RAM système 256 Go DDR4-2666 ECC RDIMM (4 x 64 Go)
Démarrage / stockage SSD NVMe M.2 de 2 To (PCIe 4.0 x4)
Source d'alimentation 1 alimentation ATX de 2 kW
Châssis Montage en rack 4U avec flux d'air dirigé de l'avant vers l'arrière
Refroidissement Colonne Arctic Freezer 4U-M SP3 + 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm
Réseau Double interface Ethernet 10 GbE intégrée (Intel X550)

Enveloppe de puissance

  • Consommation du GPU : 2 x 600 W = 1 200 W
  • Puissance totale du système à pleine charge : ~1 525 W
  • Puissance totale de l'alimentation : 2 000 W (2 kW chacun) — marge de 23.7 %
  • Une seule alimentation suffit ; mise à niveau optionnelle vers une double alimentation pour une redondance N+1

Topologie des voies

PCIe Gen4 x16 par GPU (la carte est nativement Gen5 ; la carte mère Rome est limitée à Gen4). Connexion directe au niveau du complexe racine — pas de commutateur PCIe. Pas de NVLink — communication inter-GPU peer-to-peer. Cinq emplacements x16 restent disponibles pour l’extension. La différence entre Gen4 et Gen5 est négligeable pour l’inférence à cette densité de VRAM.

Ce que vous pouvez courir

Avec 192 Go de VRAM ECC sur seulement deux cartes Blackwell compatibles fp8/fp4, c'est la solution la plus simple pour un débit de 70 octets à bf16 et un MoE de taille moyenne. Deux flux indépendants de 70 octets (un par carte) ou un MoE de 200 octets répartis sur les deux cartes avec une surcharge minimale liée au transfert de paquets bidirectionnel.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3 / Qwen3.5 (Alibaba) : Qwen3-235B-A22B Q4 (~132 Go) compatible avec un CTX long (~15-25 tok/s en flux unique sur 2 cartes) ; Qwen3-Coder-480B-A35B Q2 (~160 Go) ; Qwen3.5-122B-A10B fp8 (~75 Go) ; Qwen3-32B bf16 haute densité avec un KV élevé ; QwQ-32B bf16
  • Recherche profonde : DeepSeek-V3/R1 Q2 (~215 Go avec un léger débordement de RAM) — Blackwell exécute fp8 nativement ; DeepSeek-R2 32B bf16 deux flux simultanés (un par carte)
  • GLM / Z.ai : GLM-4.5 / 4.6 / 4.7 Q4 (~177 Go) — configuration optimale à ce niveau ; GLM-4.5-Air FP8 ou BF16 avec un KV élevé
  • Tencent Hunyuan : Hunyuan-Large Q3 (~160 Go) — 389 octets MoE avec 256 kbits/s ; Hunyuan-A13B fp8 natif (~80 Go) avec un KV très élevé
  • Autres : Baidu ERNIE-4.5-424B Q3 ​​(~ 180 Go) ; InternVL3.5-241B-A28B Q4 (~ 135 Go) ; MiniMax-M1 Q3 (~ 180 Go)

Frontière de l'Ouest

  • Méta-lama : Llama 3.3 70B bf16 sur une seule carte — deux flux 70B indépendants et simultanés (~20-30 tok/s par flux) ; Llama 4 Scout bf16 (~218 Go, optimisé) ; Llama 4 Maverick Q3 (~188 Go)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 Go) sur une seule carte ou bf16 sur les deux ; Mistral Small 3 multi-flux
  • OpenAI (poids ouverts) : gpt-oss-120b MXFP4 natif (80 Go) — tient sur UNE carte, deux flux simultanés indépendants
  • NVIDIA Nemotron : Llama-3.1-Nemotron Ultra 253B Q4 (~147 Go) ; Super 49B bf16 sur une seule carte
  • Autres : Carte Cohere Command R+ 104B Q6 (~85 Go) sur une seule carte ; Google Gemma 3 27B bf16 : plusieurs flux simultanés

Modèles Vision-Langage

InternVL3.5-241B-A28B Q4 (~135 Go); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 carte unique; Pixtral Large 124B bf16 ou Q6; Llama 3.2 90B Vision bf16 (~180 Go); Molmo 72B bf16 (~144 Go); GLM-4.6V 106B fp8; Gemma 3 27B multimodal x 2-3 flux simultanés.

Génération d'images

FLUX.1 [dev] bf16 flux simultanés multiples ; FLUX.1 Kontext [dev] ; Outils FLUX ; SD 3.5 Large bf16 simultané ; HunyuanImage-2.1 bf16 (~34 Go) x 2-4 simultanés ; HunyuanImage-3.0 base (80 octets MoE, 13 octets actifs) bf16 — tient sur une carte ; HunyuanDiT ; Kolors / Kolors 2.0 ; AuraFlow ; OmniGen v1 ; PixArt-Sigma.

Génération vidéo

Wan 2.2 MoE double expert bf16 contexte complet — tient sur une carte, deux flux de génération simultanés ; Wan 2.2 TI2V-5B ; HunyuanVideo 13B bf16 les deux experts ; HunyuanVideo 1.5 ; CogVideoX-5B bf16 ; Open-Sora 2.0 11B bf16 ; Mochi-1 bf16 (~42 Go) ; LTX-Video ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos Predict 2.

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 large / turbo (~50x temps réel) ; Parakeet-TDT ; Canary 1B ; Qwen3-ASR ; SenseVoice
  • STT : CosyVoice 2/3 ; Kokoro 82M ; XTTS v2 ; Stable Audio Open ; Step-Audio-EditX
  • Temps réel / S2S : Kyutai Moshi 7B ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
  • Musique / Effets sonores : MusicGen / AudioGen / Bark ; SeamlessM4T v2

Service multi-modèles / multi-locataires

  • Deux flux 70B indépendants — un par carte, forme la plus simple d'isolation des locataires
  • Carte 70B bf16 haute densité + pile de support — LLM sur la carte 1, image/vidéo/audio sur la carte 2
  • 200 milliards de MoE répartis sur les deux cartes — surcharge minimale pour le parallélisme des tenseurs (répartition en 2 voies)
  • fp8-native frontier — Famille DeepSeek V3, Hunyuan-Large fp8 avec chemins natifs Blackwell

Charges de travail cibles

  • Inférence dense 70B bf16 — deux cartes en parallèle tensoriel avec une surcharge minimale, ou un modèle par carte pour le streaming
  • 100-150B MoE au Q4-Q6 (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
  • Inférence de frontière native FP8 (famille DeepSeek V3, Hunyuan, Llama 4) — Blackwell exécute fp8 nativement
  • Studio de génération d'images et de vidéos à bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
  • Analyse de documents à contexte long (MiniMax-M1, Kimi-K2 1.58 bit UD avec débordement)

Performance mesurée

Références publiées | Fiche technique et benchmarks de la communauté pour la NVIDIA RTX Pro 6000 Blackwell Server Edition

référence Résultat
Performances maximales INT8 par carte (fiche technique NVIDIA) 2 000 TOPS
Total INT8 TOPS (2 cartes) 4 000 TOPS
Bande passante mémoire par carte ~1 800 Go/s, 96 Go de mémoire GDDR7 ECC
Lama 3.3 70B bf16 par carte (communauté) 15-25 tok/s en flux unique, 60-90 tok/s par lot
70B à double carte tenseur parallèle (communauté) ~30-45 tok/s en flux unique attendu
Blackwell fp8 natif DeepSeek-V3 fp8, Hunyuan-A13B fp8 exécutés sans upcast bf16

Les données de référence externes publiées n'ont pas été mesurées sur du matériel Kentino. Kentino publiera ses propres résultats après la première livraison au client.

Pas idéal pour

  • Service multi-locataire à très haute concurrence — 4x L40 ou 6x L4 répartissent mieux la charge sur un plus grand nombre de cartes
  • Cache KV lourd avec contexte très long — passez à K-AI 384 RTXPro6000 8000TOPS
  • Formation — Kentino ne vend pas de tissus NVLink de classe H.
  • Analyse budgétaire pour un pool de 192 Go : 8 RTX 4090 sont moins chères (au détriment de la mémoire ECC et du refroidissement passif).

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

Garantie constructeur NVIDIA de 3 ans sur la RTX Pro 6000 Server Edition + garantie d'intégration Kentino. L'assemblage comprend la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • Passez à une alimentation double synchronisée de 2 kW pour une redondance N+1.
  • Mise à niveau de la RAM à 512 Go (4 emplacements DIMM disponibles)
  • Disque NVMe de 4 To pour les bibliothèques de poids volumineuses et la préparation des modèles
  • Extensible à une configuration à 4 cartes (K-AI 384 RTXPro6000 8000TOPS) — le châssis dispose d'une capacité d'emplacement.
  • Baie rack 24U + onduleur en ligne 5 kVA
Voir tous les détails