Pomiń, pour fournir des informations sur la production
1 z 7

Kentino Ltd

K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — Turin SP5 2U

K-AI 192 Turin2U RTXPro6000 4000TOPS — 2× RTX Pro 6000 Blackwell Server Edition — Turin SP5 2U

Prix ​​régulier €56.600,00 EUR
Prix ​​régulier Prix ​​promotionnel €56.600,00 EUR
En promotion Épuisé
Avec quels noms podatkami. Frais de port Calculé à la caisse.

K-AI 192 Turin2U RTXPro6000 4000TOPS

Paire de disques haut de gamme Blackwell ECC 192 Go
2 cartes graphiques RTX Pro 6000 Server Edition | EPYC Turin SP5 | 4 000 TOPS INT8

4:000
INT8 TOPS
192 GB
VRAM ECC
Blackwell
fp8 natif
2 cartes
minimum de TP

Deux cartes RTX Pro 6000 Blackwell Server Edition passives, chacune dotée de 96 Go de mémoire ECC. Moins de surcharge liée au traitement parallèle des tenseurs qu'avec des configurations à 4 ou 8 cartes. Paire de cartes haut de gamme pour centres de données, sur une plateforme 2U Gen5/DDR5 avec une véritable redondance d'alimentation 1+1.

Serveur d'inférence rackable 2U équipé de deux cartes RTX Pro 6000 Blackwell Server Edition passives (96 Go ECC GDDR7 par carte), d'un processeur AMD EPYC 9335 Turin (32 cœurs/64 threads, 3.0/4.4 GHz), de 512 Go de mémoire DDR5-4800 ECC, d'un SSD NVMe Gen5 de 5.76 To et d'une alimentation redondante 1+1 de 2.7 kW certifiée 80+ Platinum CRPS. À partir de 56 600 € HT. Pour les calculs denses 70B bf16 et les calculs MoE de taille moyenne, privilégier un nombre réduit de cartes hautes performances est préférable à un plus grand nombre de cartes basses performances : le parallélisme tensoriel à deux cartes minimise la surcharge de communication, et chaque carte de 96 Go intègre une copie complète de la plupart des modèles.

Ce PC reprend la même configuration 4U Rome avec deux barrettes Blackwell de 192 Go, dans un châssis ASRock 2U à haute densité de mémoire (5G côté hôte), de la mémoire DDR5-4800 et une véritable alimentation Platinum CRPS redondante 1+1 de 2.7 kW. Optez pour cette configuration lorsque la densité de stockage est primordiale, lorsque votre cahier des charges exige une plateforme PCIe 5.0 / DDR5 moderne, ou lorsque la redondance d'alimentation est une nécessité et non une option.

Hardware

Composant Détails
GPU 2x NVIDIA RTX Pro 6000 Blackwell Server Edition 96 Go ECC GDDR7 (passive, 600 W, PCIe 5.0 x16, double emplacement)
Pool de VRAM 192 Go ECC (2 x 96 Go) – chaque carte contient un modèle 70B bf16 autonome
Processeur AMD EPYC 9335 Turin (32C/64T, 3.0/4.4 GHz, 210 W, SP5, 128 lignes PCIe 5.0, Zen5c, 256 Mo L3)
Carte mère ASRock Rack 2U4G-GENOA/M3 (SP5, 4x PCIe 5.0 x16 GPU double emplacement, 8x DDR5 1DPC, OCP 3.0, IPMI AST2600)
RAM système 512 Go DDR5-4800 ECC RDIMM (8 x 64 Go, 1 DPC entièrement occupé - configuration à bande passante maximale)
Démarrage / stockage Kioxia CD8-P 3.84 To Gen5 U.3 (niveau chaud, 1 DWPD, ~12 Go/s en lecture) + Kioxia CD8-P 1.92 To Gen5 U.3 (niveau système d'exploitation de démarrage) – 5.76 To au total pour le centre de données (NVMe Gen5).
Source d'alimentation Alimentation CRPS 80+ Platinum 2.7 kW redondante 1+1 (2 x 1350 W à 230 V) – véritable redondance N+1 ; une seule alimentation supporte la pleine charge d’interférence.
Châssis Montage en rack 2U avec flux d'air dirigé de l'avant vers l'arrière (ventilateurs haute pression statique de 80 mm). Fonctionnement 24h/24 et 7j/7.
Refroidissement Dissipateur thermique actif pour processeur SP5 + 3 entrées d'air avant de 80 x 38 mm + 1 sortie d'air arrière de 80 x 80 mm (conçu pour une charge thermique passive de 4 GPU ; la configuration à 2 cartes offre une marge thermique suffisante)
Réseau Carte mère Intel X710-T2L PCIe double 10GBASE-T + emplacement OCP 3.0 disponible pour une mise à niveau 25/100 GbE

Enveloppe de puissance

  • Consommation du GPU : 2 x 600 W = 1 200 W
  • Puissance totale du système à pleine charge : ~1 510 W
  • Configuration de l'alimentation : CRPS redondant 1+1, 2 x 1350 W à 230 V (2 700 W au total)
  • Marge dynamique : 44.1 % sous charge d’inférence typique
  • Véritable redondance N+1 : une seule alimentation supporte la charge d’inférence complète ; aucun risque de défaillance d’une seule alimentation.

Topologie des voies

PCIe Gen5 x16 de bout en bout : hôte et carte natifs Gen5. Connexion directe au complexe racine, sans commutateur PCIe. Un emplacement PCIe 5.0 x16 et un emplacement PCIe 5.0 x8 restent disponibles (la carte réseau occupe l’emplacement x8). Pas de NVLink : communication inter-GPU peer-to-peer via PCIe. La bande passante Gen5 élimine la limitation de bande passante hôte Gen4 présente sur le modèle Rome 4U.

Ce que vous pouvez courir

Avec 192 Go de VRAM ECC sur seulement deux cartes Blackwell compatibles fp8/fp4, c'est la solution la plus simple pour un débit de 70 octets à bf16 et un MoE de taille moyenne. Deux flux indépendants de 70 octets (un par carte) ou un MoE de 200 octets répartis sur les deux cartes avec une surcharge minimale liée au transfert bidirectionnel.

Masters en droit (LLM) – texte / raisonnement / programmation

frontière chinoise

  • Qwen3 / Qwen3.5 (Alibaba) : Qwen3-235B-A22B Q4 (~132 Go) compatible avec un CTX long (~15-25 tok/s en flux unique sur 2 cartes) ; Qwen3-Coder-480B-A35B Q2 (~160 Go) ; Qwen3.5-122B-A10B fp8 (~75 Go) ; Qwen3-32B bf16 haute densité avec un KV élevé ; QwQ-32B bf16
  • Recherche profonde : DeepSeek-V3/R1 Q2 (~215 Go avec un léger débordement de RAM) -- Blackwell exécute fp8 nativement ; DeepSeek-R2 32B bf16 deux flux simultanés (un par carte)
  • GLM / Z.ai : GLM-4.5 / 4.6 / 4.7 Q4 (~177 Go) – Configuration optimale à ce niveau ; GLM-4.5-Air FP8 ou BF16 avec un KV élevé
  • Tencent Hunyuan : Hunyuan-Large Q3 (~160 Go) – 389 octets MoE avec 256 kbits/s ; Hunyuan-A13B fp8 natif (~80 Go) avec un KV très élevé
  • Autres : Baidu ERNIE-4.5-424B Q3 ​​(~ 180 Go) ; InternVL3.5-241B-A28B Q4 (~ 135 Go) ; MiniMax-M1 Q3 (~ 180 Go)

Frontière de l'Ouest

  • Méta-lama : Llama 3.3 70B bf16 sur une seule carte — deux flux 70B indépendants et simultanés (environ 20-30 tok/s par flux) ; Llama 4 Scout bf16 (environ 218 Go, optimisé) ; Llama 4 Maverick Q3 (environ 188 Go)
  • Mistral: Mistral Large 2 / Pixtral Large / Devstral 2 123B Q6 (~88 Go) sur une seule carte ou bf16 sur les deux ; Mistral Small 3 multi-flux
  • OpenAI (poids ouverts) : gpt-oss-120b MXFP4 natif (80 Go) -- tient sur UNE carte, deux flux simultanés indépendants
  • NVIDIA Nemotron : Llama-3.1-Nemotron Ultra 253B Q4 (~147 Go) ; Super 49B bf16 sur une seule carte
  • Autres : Carte Cohere Command R+ 104B Q6 (~85 Go) sur une seule carte ; Google Gemma 3 27B bf16 : plusieurs flux simultanés

Modèles Vision-Langage

InternVL3.5-241B-A28B Q4 (~135 Go); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 carte unique; Pixtral Large 124B bf16 ou Q6; Llama 3.2 90B Vision bf16 (~180 Go); Molmo 72B bf16 (~144 Go); GLM-4.6V 106B fp8; Gemma 3 27B multimodal x 2-3 flux simultanés.

Génération d'images

FLUX.1 [dev] bf16 flux simultanés multiples ; FLUX.1 Kontext [dev] ; Outils FLUX ; SD 3.5 Large bf16 simultané ; HunyuanImage-2.1 bf16 (~34 Go) x 2-4 simultanés ; HunyuanImage-3.0 base (80 octets MoE, 13 octets actifs) bf16 -- tient sur une carte ; HunyuanDiT ; Kolors / Kolors 2.0 ; AuraFlow ; OmniGen v1 ; PixArt-Sigma.

Génération vidéo

Wan 2.2 MoE double expert bf16 contexte complet -- tient sur une carte, deux flux de génération simultanés ; Wan 2.2 TI2V-5B ; HunyuanVideo 13B bf16 les deux experts ; HunyuanVideo 1.5 ; CogVideoX-5B bf16 ; Open-Sora 2.0 11B bf16 ; Mochi-1 bf16 (~42 Go) ; LTX-Video ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos Predict 2.

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 large / turbo (~50x temps réel) ; Parakeet-TDT ; Canary 1B ; Qwen3-ASR ; SenseVoice
  • STT : CosyVoice 2/3 ; Kokoro 82M ; XTTS v2 ; Stable Audio Open ; Step-Audio-EditX
  • Temps réel / S2S : Kyutai Moshi 7B ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
  • Musique / Effets sonores : MusicGen / AudioGen / Bark ; SeamlessM4T v2

Service multi-modèles / multi-locataires

  • Deux flux 70B indépendants – un par carte, forme la plus simple d'isolation des locataires
  • Carte 70B bf16 haute densité + pile de support -- LLM sur la carte 1, image/vidéo/audio sur la carte 2
  • 200 milliards de MoE répartis sur les deux cartes – surcharge minimale liée au parallélisme des tenseurs (répartition en deux voies)
  • Frontière native fp8 -- Famille DeepSeek V3, Hunyuan-Large fp8 avec chemins natifs Blackwell

Charges de travail cibles

  • Inférence dense 70B bf16 : deux cartes en parallèle tensoriel avec une surcharge minimale, ou un modèle par carte pour le streaming
  • 100-150B MoE au Q4-Q6 (GLM-4.5-Air, Qwen3.5-122B-A10B, Hunyuan-A13B, Llama 4 Scout)
  • Inférence de frontière native FP8 (famille DeepSeek V3, Hunyuan, Llama 4) -- Blackwell exécute fp8 nativement
  • Calculs scientifiques nécessitant un débit NVMe Gen5 de qualité centre de données et une mémoire ECC
  • Studio de génération d'images et de vidéos à bf16 (Wan 2.2 T2V-A14B, HunyuanVideo 13B, FLUX.1 [dev])
  • Déploiements à densité de racks limitée : format 2U contre équivalent 4U Rome à VRAM égale
  • Le cahier des charges exige une plateforme PCIe 5.0 / DDR5 ou une alimentation redondante.

Performance mesurée

Références publiées | Fiche technique et benchmarks de la communauté pour la NVIDIA RTX Pro 6000 Blackwell Server Edition

référence Résultat
Performances maximales INT8 par carte (fiche technique NVIDIA) 2 000 TOPS
Total INT8 TOPS (2 cartes) 4 000 TOPS
Bande passante mémoire par carte ~1 800 Go/s, 96 Go de mémoire GDDR7 ECC
Lama 3.3 70B bf16 par carte (communauté) 15-25 tok/s en flux unique, 60-90 tok/s en traitement par lots – amélioration attendue du chemin mémoire côté hôte de la 5e génération pour les charges de travail par lots en flux continu par rapport à l'hôte de la 4e génération.
Avantage côté hôte de la 5e génération (même silicium sur une seule carte) L'interface PCIe 5.0 x16 de bout en bout réduit la latence de transfert entre l'hôte et le périphérique pour les charges de travail par lots en continu ; les tâches gourmandes en calcul sur la carte bénéficient d'un débit identique aux configurations hébergées sur la Gen4.
70B à double carte tenseur parallèle (communauté) ~30-45 tok/s en flux unique attendu
Blackwell fp8 natif DeepSeek-V3 fp8, Hunyuan-A13B fp8 exécutés sans upcast bf16

Les données de référence externes publiées n'ont pas été mesurées sur du matériel Kentino. Kentino publiera ses propres résultats après la première livraison au client.

Pas idéal pour

  • Service multi-locataire à très haute concurrence : 4x L40 ou 6x L4 répartissent mieux la charge sur un plus grand nombre de cartes.
  • Cache KV lourd avec contexte très long – passez à K-AI 576 Genoa RTXPro6000 12000TOPS
  • Formation – Kentino ne vend pas de tissus NVLink de classe H.
  • Inférence budgétaire pour ce pool de VRAM : la configuration 4U Rome K-AI 192 RTXPro6000 4000TOPS est moins coûteuse si l’architecture hôte Gen4 est acceptable et que la redondance de l’alimentation n’est pas requise.

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
14 à 21 jours
délai d'exécution : prototypage rapide

Garantie constructeur NVIDIA de 3 ans sur la RTX Pro 6000 Server Edition + garantie châssis de 36 mois + garantie d'intégration Kentino. L'assemblage comprend la configuration du BIOS/firmware, la configuration IPMI, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison de 14 à 21 jours ouvrés correspond à une commande auprès d'un revendeur pour des composants de classe Turin ; ce délai est confirmé lors de la commande.

Modules complémentaires recommandés

  • Possibilité d'extension à une configuration à 4 cartes : le châssis dispose nativement de 4 baies GPU (la configuration actuelle en utilise 2 sur 4), avec possibilité d'évolution vers une K-AI 384 Turin2U RTXPro6000 8000TOPS
  • Ajoutez 25 GbE ou 100 GbE via l'emplacement OCP 3.0 (variante OCP Mellanox ConnectX-5/6)
  • Ajout d'un SSD NVMe Kioxia CD8-P dans les 2 baies U.2 restantes pour le RAID ou le stockage temporaire.
  • Mettez à niveau votre stockage vers un Samsung PM1743 ou un Kioxia CM7-V pour une endurance supérieure (3 DWPD).
  • Baie rack 24U + onduleur en ligne 5 kVA
Pokaż kompletne danois