Passer aux informations sur le produit
1 of 7

Kentino Ltd

K-AI 256 TurinDual 5090 — Processeur phare double socket Zen5c 8× RTX 5090 (Demander un devis pour le processeur)

K-AI 256 TurinDual 5090 — Processeur phare double socket Zen5c 8× RTX 5090 (Demander un devis pour le processeur)

Prix ​​habituel €0,00 EUR
Prix ​​habituel Prix ​​de vente €0,00 EUR
Soldes Épuisé
Taxes incluses. Hors transport Livraison calculés à la caisse

K-AI 256 TurinDual 5090 13408TOPS

Serveur d'inférence phare avec 256 Go de VRAM
8x RTX 5090 | Double EPYC Turin | 13 408 TOPS INT8

13:408
TOPS INT8
256 GB
Pool de VRAM
fp8
Originaire de Blackwell
Gen5
PCIe de bout en bout

Prix ​​du processeur finalisé à la commande — Le marché de la série Turin 9005 évolue chaque semaine au deuxième trimestre 2026.

Références externes publiées. Mesures non effectuées sur du matériel Kentino.

Serveur d'inférence haut de gamme au format rack 7U, équipé de huit cartes graphiques GeForce RTX 5090 (32 Go GDDR7, Blackwell, architecture fp8 native) sur une plateforme EPYC Turin biprocesseur (Zen5c, SP5), avec 768 Go de mémoire DDR5-4800 ECC répartis sur les 12 canaux, un disque NVMe de 2 To pour le système d'exploitation et une alimentation serveur de 5 x 1200 W. Connectivité PCIe Gen5 de bout en bout au niveau du GPU via des cartes d'extension actives avec retimer/redriver. Compatible avec vLLM, SGLang, llama.cpp, ComfyUI et l'ensemble des principaux frameworks d'inférence open-weight dès sa sortie d'usine.

Hardware

Composant Détails
GPU 8 cartes graphiques NVIDIA GeForce RTX 5090 32 Go GDDR7 (Blackwell, 575 W TGP, PCIe 5.0 x16, fp8 natif, 1676 TOPS INT8/carte)
Pool de VRAM 256 Go au total sur 8 cartes (pas de NVLink sur la RTX 5090 grand public)
Processeur 2 processeurs AMD EPYC Turin série 9005 (Zen5c, SP5, PCIe 5.0) — devis en attente de commande
Carte mère ASRock Rack TURIN2D24XGM/500W (double SP5, PCIe 5.0, 24x DDR5 DIMM)
RAM système 768 Go DDR5-4800 ECC RDIMM (12 x 64 Go — les 12 canaux sont occupés ; 12 emplacements restent disponibles pour une extension jusqu'à 1.5 To)
Démarrage / stockage SSD NVMe M.2 de 2 To (PCIe 4.0 x4)
Source d'alimentation Ensemble de 5 alimentations serveur de 1200 W (compatibles HP, puissance totale de 6 kW)
Châssis Boîtier 7U 8 GPU (jusqu'à 10 emplacements PCIe, baies d'alimentation séparées)
Refroidissement 2 refroidisseurs tour SP5 + flux d'air avant-arrière monté en rack (ventilateurs industriels)
risers 8 ports PCIe Gen5 x16 actifs (retimer/redriver) — Gen5 de bout en bout
Réseau Interface 10 GbE intégrée (dépendante de la carte)

Enveloppe de puissance

  • Consommation du GPU : 8 x 575 W = 4 600 W
  • Puissance totale du système à pleine charge : ~5 520 W
  • Puissance totale de l'alimentation : 6 000 W (5 x 1 200 W) — Marge de 8 % selon les spécifications
  • Kentino est livré avec une limite de puissance GPU de 500 W — la consommation totale tombe à environ 4 920 W (marge de manœuvre d'environ 15 %).

Topologie des voies

Le double Turin fournit 2 x 128 = 256 lignes PCIe Gen5 côté hôte. Les risers Gen5 actifs acheminent le trafic Gen5 x16 de bout en bout au niveau de chaque GPU ; aucun commutateur PCIe n'est requis (un processeur par banc de 4 cartes). Pas de NVLink ; communication inter-GPU P2P en Gen5 x16 (environ 60 Go/s nominaux par liaison).

Ce que vous pouvez courir

Avec 256 Go de VRAM mutualisée sur 8 cartes Blackwell avec fp8 natif, ce serveur cible Frontier 235-480B MoE au Q4 avec contexte réel, la famille DeepSeek V3 au Q2 et Kimi-K2 1.58 bits quant dynamique au débit réel.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3-235B-A22B (Instruction / Réflexion / "2507") Q4 (~132 Go) avec contexte long + traitement par lots multi-utilisateurs (~25-40 tok/s flux unique sur 8x RTX 5090, référence publiée)
  • GLM-4.5 / 4.6 / 4.7 Q4 (~177 Go) — processeur/programmation haut de gamme, 200 000 CTX sur Android 4.6+
  • GLM-5 / GLM-5.1 Q2 (~260 Go) avec un léger débordement de RAM — codage de pointe proche de Claude Opus 4.6
  • DeepSeek V3 / R1 / V3.1 / V3.2 / V3.2-Spécial Q2 (~215 Go) à une vitesse d'inférence utile (~28 tok/s en flux unique sur 8x Blackwell, référence publiée)
  • Kimi-K2 UD-TQ1_0 1.58 bits (~240 Go) — agent à mille milliards de paramètres au débit de jetons réel (~7-10 tok/s en flux unique, référence publiée)
  • Hunyuan-Grand 389B/52B MoE Q4 (~220 Go); ERNIE-4.5-424B-A47B Q4 (~240 Go)
  • Qwen3-Coder-480B-A35B Q4 (environ 270 Go, avec débordement de RAM) — Système phare de codage ouvert SOTA
  • MiniMax-M1 / Texte-01 Q4 (~260 Go) 1M de contexte ; Qwen3.5-397B-A17B Q4 (~214 Go)

Frontière de l'Ouest

  • Mistral Grand 3 (675 milliards/41 milliards MoE, Apache 2.0) T3 (~317 Go avec débordement) — Poids ouverts de la frontière ouest
  • Llama 4 Maverick (400 milliards/17 milliards, 128 experts) Q4 (~232 Go) multimodal
  • Llama-3.1-Nemotron Ultra 253B Q4 (~119 Go) — équivalent à DeepSeek-R1 en deux fois moins de taille
  • gpt-oss-120b Le port MXFP4 natif (80 Go) offre suffisamment d'espace pour plusieurs modèles.
  • Devstral 2 123B (MIT modifié) Q6 — Meilleur codage ouvert, 256k ctx
  • Lama 3.3 70B bf16 (~142 Go) service multi-locataire (~30-40 tok/s flux unique par paire RTX 5090 TP2, référence publiée)

Modèles Vision-Langage

Qwen3-VL-235B-A22B (format bf16 complet, environ 240 Go sur carte) ; InternVL3.5-241B-A28B (environ 135 Go Q4) ; Llama 3.2 (90 octets, Vision, format bf16) ; Pixtral Large (124 octets, format bf16, environ 248 Go, format compact) ; Qwen3-Omni-30B-A3B ; Molmo (72 octets) ; ERNIE-4.5-VL ; GLM-4.6V (format complet). Le chemin fp8 de Blackwell offre un débit environ deux fois supérieur à celui d'Ada pour l'inférence Vision Tower.

Génération d'images

FLUX.1 [dev] / Kontext / Outils bf16 complet (~10-18 s/image à fp8 par carte, référence publiée) ; SD 3.5 Large ; HunyuanImage-2.1 (17B, 2K natif) ; HunyuanImage-3.0 80B/13B MoE ; AuraFlow ; OmniGen ; fermes ComfyUI multi-travailleurs.

Génération vidéo

Wan 2.2 T2V-A14B / I2V-A14B double expert bf16 (résidents à bruit élevé et faible simultanément) ; HunyuanVideo 13B bf16 les deux experts ; Open-Sora 2.0 (11B) bf16 ; CogVideoX-5B ; Mochi-1 ; LTX-Video ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos Predict 2.

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 large / turbo (~50x temps réel) ; Parakeet-TDT 1.1B ; Canary 1B ; Qwen3-ASR ; SenseVoice
  • STT : CosyVoice 2/3 ; Kokoro ; Stable Audio Open ; XTTS v2 ; Step-Audio-EditX
  • Temps réel / S2S : Kyutai Moshi ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
  • Musique / Effets sonores : MusicGen ; AudioGen ; Bark ; SeamlessM4T v2

Service multi-modèles / multi-locataires

  • Passerelle d'inférence Frontier — Plus de 200 milliards de MoE + 70 milliards de requêtes simultanées + images + vidéos, le tout en interne
  • Parallélisme tensoriel à 8 voies pour Kimi-K2 / DeepSeek V3 en contexte réel
  • API LLM mutualisée — 50 à 100 utilisateurs simultanés sur 235 milliards de dollars au 4e trimestre via vLLM/SGLang
  • Résidence simultanée complète en Chine et à la frontière occidentale à des fins d'évaluation/de comparaison

Charges de travail cibles

  • Backend d'inférence à poids ouvert Frontier pour une organisation de 100 à 500 utilisateurs, combinant Qwen3-235B, GLM-4.5+ et DeepSeek V3 Q2
  • Plateforme d'agent Kimi-K2 1.58 bits en production (utilisation de l'outil, plus de 200 appels séquentiels)
  • Full-fp8 DeepSeek V3 / R1 fonctionnant sur silicium Blackwell
  • Tête d'entraînement multi-nœuds avec infrastructure Gen5 100 GbE / InfiniBand
  • Ferme d'inférence et de diffusion à double rôle (Qwen3-235B + FLUX.1 + HunyuanVideo 13B simultanément)

Références de performance publiées

Références externes | Mesures non effectuées sur du matériel Kentino

référence Résultat
Performances maximales de la RTX 5090 par carte INT8 1 676 TOPS
Bande passante mémoire de la RTX 5090 ~1 800 Go/s par carte
vLLM — Qwen3-235B Q4_K_M sur 4x RTX 5090 (simple) ~90 tok/s
vLLM — Qwen3-235B Q4_K_M sur 4x RTX 5090 (lot 32) ~450 tok/s en moyenne
SGLang — DeepSeek V3 Q2 sur Blackwell 8x (simple) ~28 tok/s
lama.cpp — Kimi-K2 UD-TQ1_0 sur 8x Blackwell 256 Go ~7-10 tok/s

Kentino publiera ses propres fichiers tok après la première version client avec la référence finale Turin.

Pas idéal pour

  • Déploiements économiques (Turin premium vs alternatives à Gênes ou Rome)
  • Charges de travail denses de 70 octets pour un seul locataire (surdimensionnement — 4 cartes RTX 5090 ou 4 cartes RTX Pro 6000 constituent le niveau approprié)
  • Frontier 600B+ au 4e trimestre + contexte complet (nécessite un pool de 576 Go+ — voir 6x RTX Pro 6000)
  • Entraînement continu à partir de zéro (pas de NVLink sur une RTX 5090 grand public)

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • Augmentez la RAM à 1.5 To DDR5 (24 x 64 Go) – requis pour Kimi-K2 Q4 ou DeepSeek V3 Q3 sans débordement de RAM.
  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT — Infrastructure Gen5 pour nœuds de cluster
  • Mellanox ConnectX-6 25 GbE SFP28 pour infrastructure de centre de données
  • 4 disques NVMe Gen4 x4 de 4 To pour le démarrage + bibliothèque de modèles
  • Baie rack 24U complète avec PDU géré
  • Onduleur en ligne 8-10 kVA (critique — consommation de pointe de 5.5 kW)
Voir tous les détails