Kentino Ltd
K-AI 96 Rome RTXPro6000 2000TOPS — Serveur de station de travail Blackwell à carte unique de 96 Go
K-AI 96 Rome RTXPro6000 2000TOPS — Serveur de station de travail Blackwell à carte unique de 96 Go
Impossible de charger la disponibilité du ramassage
K-AI 96 Rome RTXPro6000 2000TOPS
Serveur de station de travail à carte unique ECC de 96 Go
1x RTX Pro 6000 Blackwell | EPYC Milan | 2 000 TOPS INT8
Une seule carte, 96 Go de VRAM ECC, l'intégralité du pipeline tensoriel Blackwell. 70 octets de bf16 dense sur un seul GPU — sans surcharge liée au parallélisme des tenseurs.
Serveur station de travail rackable 4U avec une carte graphique NVIDIA RTX Pro 6000 Blackwell Workstation (96 Go ECC GDDR7), un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), 256 Go de mémoire DDR4 ECC, un disque NVMe de 2 To pour le système d'exploitation et une alimentation ATX de 2 kW avec une marge de 54 %. La configuration logicielle Kentino est simplifiée : aucune configuration Tensor Parallel ni débogage multi-GPU ne sont pris en charge. vLLM, SGLang, llama.cpp et ComfyUI fonctionnent parfaitement sur un seul périphérique.
Hardware
| Composant | Détails |
|---|---|
| GPU | 1x NVIDIA RTX Pro 6000 Blackwell Workstation 96 Go ECC GDDR7 (600 W, PCIe 5.0 x16) |
| VRAM | 96 Go de mémoire ECC sur une seule carte — sans mise en commun, sans surcharge liée au parallélisme des tenseurs |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 256 Go DDR4-2666 ECC RDIMM (4 x 64 Go) |
| Démarrage / stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | 1 alimentation ATX de 2 kW |
| Châssis | Montage en rack 4U (capacité de 4 emplacements, 1 occupé — possibilité d'extension) |
| Refroidissement | Colonne Arctic Freezer 4U-M SP3 + 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU : 1 x 600 W = 600 W
- Puissance totale du système à pleine charge : ~925 W
- Puissance totale de l'alimentation : 2 000 W — marge de 53.8 %
- Une seule alimentation, un câblage simple — une marge confortable pour une configuration à carte unique
Topologie des voies
PCIe Gen4 x16 au niveau du GPU (la carte est nativement Gen5 ; la carte mère Rome est limitée à Gen4). Connexion directe au complexe racine — aucun commutateur PCIe. Pas de NVLink requis — une seule carte, aucune liaison inter-GPU. Six emplacements x16 restent disponibles pour la carte réseau, le stockage ou l’extension.
Ce que vous pouvez courir
Avec 96 Go de VRAM ECC sur une seule carte Blackwell, ce serveur gère 70 octets de bf16 denses sur un seul GPU, des LLM à poids ouvert, des modèles de vision, la génération d'images et de vidéos, l'IA vocale et l'inférence de production — aucune coordination parallèle de tenseurs n'est nécessaire.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3 / Qwen3.5 (Alibaba) : Qwen3-32B bf16 dense (~65 Go) avec KV généreux ; Qwen3-72B Q6 (~58 Go, ~25-35 tok/s en flux unique) ; Qwen3-30B-A3B MoE bf16 ; Qwen3-Coder-30B-A3B agentic à 256 kbit/s ; Qwen3.5-122B-A10B Q4 (~70 Go) avec KV serré ; QwQ-32B bf16 raisonnement
- Recherche profonde : DeepSeek-R2 32B sparse MoE bf16 (~64 Go, 92.7 % AIME 2025 carte unique) ; DeepSeek-R1-Distill-Qwen-32B bf16 ; DeepSeek-V2-Lite 16B pleine précision
- GLM / Z.ai : GLM-4.5-Air 106B/12B Q4-Q5 (60-70 Go) ; GLM-4.6V 106B Q4
- Tencent Hunyuan : Hunyuan-A13B 80B/13B MoE Q4-fp8 (~48-80 Go) avec 256k ctx et logique double mode
- Graine ByteDance-OSS-36B bf16 (~72 Go serré) ou fp8 (~36 Go) avec contexte natif complet de 512 Ko
- Baidu ERNIE-4.5-47B-A3B Q4-fp8 avec un contexte long
Frontière de l'Ouest
- Méta-lama : Llama 3.3 70B à bf16 (~70 Go) sur une seule carte avec 8-16k ctx — la configuration optimale ; Llama 3.3 70B Q6 (~58 Go, ~35-50 tok/s en flux unique) ; Llama 3.1 8B bf16 (~80-120 tok/s) ; Llama 3.2 90B Vision Q4 (~52 Go) ; Llama 4 Scout 109B/17B MoE Q4 (~63 Go)
- Mistral: Mistral Small 3 / Magistral Small 1.2 / Devstral Small 2 (24B) tous en bf16 avec 256k ctx ; Mixtral 8x7B Q6 ; Codestral Mamba 7B ; Pixtral 12B bf16
- OpenAI (poids ouverts) : gpt-oss-20b MXFP4 natif (16 Go) ; gpt-oss-120b MXFP4 natif (80 Go) — carte unique, flux unique
- Google Gemma 3 : BF16 multimodal 27 octets (~54 Go) avec 128 000 CTX ; BF16 12 octets / 4 octets
- Microsoft Phi-4 14B dense bf16 ; Raisonnement Phi-4 ; Phi-4 multimodal
- NVIDIA Nemotron : Lama-3.1-Nemotron-Super 49B Q6 (~ 40 Go) ; Némotron-Nano 8B
- Autres : IBM Granite 4.0 H-Small 32B/9B ; OLMo 2 32B ; Reka Flash 3 21B ; Falcon H1R 7B ; Command R 35B
Modèles Vision-Langage
Qwen3-VL-8B/32B bf16, Qwen3-VL-30B-A3B MoE bf16, Qwen3-Omni-30B-A3B ; InternVL3 jusqu'à 78B Q4 (~48 Go) ; InternVL3.5-38B bf16 ; DeepSeek-VL2 gamme complète ; Llama 3.2 11B Vision bf16 ; Llama 3.2 90B Vision Q4 (~52 Go) ; Pixtral 12B bf16 ; Molmo 72B Q4 ; Molmo 7B bf16 ; Gemma 3 12B/27B multimodal ; PaliGemma 2 28B ; Phi-3.5-Vision ; Aya Vision 8B/32B ; MiniCPM-V 2.6/MiniCPM-o 2.6 ; GLM-4.6V.
Génération d'images
FLUX.1 [dev] / [schnell] bf16 (~24 Go) et quantifié (~15-25 s/image à fp8) ; FLUX.1 Kontext [dev] édition en contexte ; FLUX Tools (Fill / Depth / Canny / Redux) ; SD 3.5 Large bf16 (~18 Go) ; SDXL 1.0 ; HunyuanImage-2.1 bf16 (~34 Go) à 2K natif ; HunyuanDiT 1.5B ; Kolors / Kolors 2.0 ; AuraFlow v0.3 ; OmniGen v1 ; PixArt-Sigma.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B MoE bf16 (~ 54 Go, les deux experts résident) ; Chemin rapide Wan 2.2 TI2V-5B ; HunyuanVideo 13B bf16 (~ 60-80 Go, serré à 720p) ; HunyuanVidéo 1.5 (8.3B); CogVideoX-5B ; Ouvert-Sora 2.0 (11B) bf16 ; Genmo Mochi-1 bf16 (~ 42 Go) ; LTX-Vidéo ; Flux pyramidal ; SVD/SV3D/SV4D ; NVIDIA Cosmos Prédire 2.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 large / turbo (~50x temps réel) ; NVIDIA Parakeet-TDT 1.1B ; Canary 1B ; Qwen3-ASR ; SenseVoice
- STT : CosyVoice 2 / Fun-CosyVoice 3.0 ; Kokoro 82M ; Stable Audio Open ; Coqui XTTS v2 ; StyleTTS 2 ; Step-Audio-EditX
- Temps réel / S2S : Kyutai Moshi (200 ms full-duplex) ; Step-Audio 2 mini ; Step-Audio-R1 / R1.1 ; Qwen2.5-Omni-7B
- Musique / Effets sonores : Meta MusicGen ; AudioGen ; Suno Bark ; SeamlessM4T v2
Service multi-modèles / multi-locataires
- Assistant de codage en streaming mono-locataire — 70 octets de bf16 dense, faible latence, aucune pénalité de transfert de paquets
- Configuration logicielle mixte : Qwen3-32B bf16 + FLUX.1 fp8 + Whisper-turbo + Moshi sur une seule carte avec VRAM partitionnée
- Réglage fin : LoRA / QLoRA sur les modèles 13-34B ; paramètres complets sur 7B
- Service d'intégration : BGE-M3 / E5 / Jina installé à côté d'un générateur LLM
Charges de travail cibles
- Assistant de codage en flux continu mono-locataire exécutant Llama 3.3 70B bf16 ou Qwen3-Coder-30B-A3B — sans surcharge de coordination TP
- Poste de travail de développeur pour un ingénieur seul ou une petite équipe nécessitant un modèle de classe 70B avec 32 à 128k de contexte
- Laboratoire de génération vidéo ou d'images — HunyuanVideo 13B, Wan 2.2 double expert, HunyuanImage-2.1, tous situés à bf16.
- Banc VLM/OCR — Qwen3-VL-32B bf16 ou InternVL3.5-38B avec pipelines de documents longs
- Solution logicielle simple pour une petite passerelle API LLM — un modèle, une carte, une exploitation simplifiée
Performance mesurée
Références publiées | Fiche technique NVIDIA RTX Pro 6000 Blackwell + benchmarks de la communauté
| référence | Résultat |
|---|---|
| Performances maximales INT8 par carte (fiche technique NVIDIA) | 2 000 TOPS |
| VRAM par carte | 96 Go ECC GDDR7 |
| Bande passante mémoire | ~1 800 Go/s |
| Llama 3.3 70B Q6 mono-GPU (communauté) | 40-55 tok/s flux unique |
| Llama 3.3 70B bf16 mono-GPU (communauté) | 15-25 tok/s flux unique |
| Blackwell fp8 natif | DeepSeek-V3 fp8, Hunyuan-A13B fp8 exécutés sans upcast bf16 |
Les données de référence externes publiées n'ont pas été mesurées sur du matériel Kentino. Kentino publiera ses propres résultats après la première livraison au client.
Pas idéal pour
- Entraînement de grands modèles à partir de zéro (un seul GPU — sans parallélisme de tenseurs/pipelines)
- Frontier 200B+ MoE aux quantifications réelles (Qwen3-235B Q4, GLM-4.5/4.6 — utiliser K-AI 192 RTXPro6000 ou plus grand)
- Inférence multi-locataire à haute concurrence (les limites de débit agrégé d'une seule carte sont plus élevées ; une configuration à 4 RTX 4090 ou 4 L40 offre de meilleures performances)
Garantie et délai de livraison
Garantie constructeur NVIDIA de 3 ans sur la RTX Pro 6000 + garantie d'intégration Kentino. L'assemblage comprend la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Augmentez la RAM à 512 Go (ajoutez 4 barrettes DDR4 de 64 Go — quatre emplacements DIMM restent disponibles).
- Disque secondaire NVMe de 4 To pour la bibliothèque de modèles / la zone de transit des jeux de données
- Armoire ouverte 24U pour montage en rack de production
- Pour une vitesse de liaison Gen5 x16, veuillez nous contacter pour obtenir la variante sur plateforme Genoa.
Share
