Passer aux informations sur le produit
1 of 7

Kentino Ltd

K-AI 128 Rome 5090 6704TOPS — Serveur d'IA Blackwell 4× RTX 5090

K-AI 128 Rome 5090 6704TOPS — Serveur d'IA Blackwell 4× RTX 5090

Prix ​​habituel €25.372,00 EUR
Prix ​​habituel Prix ​​de vente €25.372,00 EUR
Soldes Épuisé
Taxes incluses. Hors transport Livraison calculés à la caisse

K-AI 128 Rome 5090 6704TOPS

Serveur d'inférence Blackwell avec 128 Go de VRAM
4x RTX 5090 | EPYC Milan | 6 704 TOPS INT8

6:704
INT8 TOPS
128 GB
Pool de VRAM
Blackwell
fp8 natif
2.5x
vs 4090 TOPS

Quatre cartes graphiques Blackwell RTX 5090 avec prise en charge native des chemins Tensor fp8/fp4. Configuration à 4 GPU offrant le débit le plus élevé sur la plateforme Rome.

Serveur d'inférence rackable 4U équipé de quatre cartes graphiques GeForce RTX 5090 (128 Go de VRAM au total), d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 512 Go de mémoire DDR4 ECC (8 emplacements DIMM occupés pour une bande passante maximale), d'un disque NVMe de 2 To pour le système d'exploitation et d'une double alimentation ATX de 2 kW synchronisée. Il exécute vLLM, SGLang, llama.cpp et ComfyUI avec des noyaux d'inférence natifs Blackwell pour fp8 et MXFP4.

Hardware

Composant Détails
GPU 4 cartes graphiques NVIDIA GeForce RTX 5090 32 Go GDDR7 (Blackwell, 575 W, PCIe 5.0 x16)
Pool de VRAM 128 Go au total répartis sur 4 cartes (pas de NVLink sur la 5090 grand public)
Processeur AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
RAM système 512 Go DDR4-2666 ECC RDIMM (8 x 64 Go — tous les emplacements DIMM occupés)
Démarrage / stockage SSD NVMe M.2 de 2 To (PCIe 4.0 x4)
Source d'alimentation Alimentation ATX double de 2 kW avec câble de synchronisation + kit adaptateur 12VHPWR
Châssis Boîtier rack 4U, 4 GPU, cartes d'extension passives PCIe 4.0 x16
Refroidissement Colonne Arctic Freezer 4U-M SP3 + 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm
Réseau Double interface Ethernet 10 GbE intégrée (Intel X550)

Enveloppe de puissance

  • Consommation du GPU : 4 x 575 W = 2 300 W
  • Puissance totale du système à pleine charge : ~2 650 W
  • Puissance totale de l'alimentation : 4 000 W (deux modules de 2 kW synchronisés) — marge de 33.8 %
  • Double alimentation pour une distribution d'énergie séparée — chaque alimentation alimente une partie du système

Topologie des voies

ROMED8-2T distribue 128 lignes PCIe Gen4 du processeur EPYC directement vers sept emplacements x16 ; quatre d'entre eux sont occupés par des GPU Gen4 x16. Pas de commutateur PCIe. Pas de NVLink sur la 5090 grand public (communication inter-GPU peer-to-peer). Les cartes sont nativement compatibles Gen5 ; Rome est limité à la Gen4.

Ce que vous pouvez courir

Avec 128 Go de VRAM mutualisée et des chemins tenseurs fp8 natifs de Blackwell, ce serveur passe à Qwen3-235B-A22B Q4 et gpt-oss-120b MXFP4 avec une véritable marge KV — au-delà de ce que 4x RTX 4090 peuvent atteindre.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3 / Qwen3.5 (Alibaba) : Qwen3-235B-A22B Q3-Q4 (~112-132 Go) compatible avec le pool de 128 Go et 8-16k ctx — la configuration de référence ; Qwen3-32B bf16 dense (~65 Go) avec un KV massif ; Qwen3-Coder-30B-A3B agentic à 1M ctx ; Qwen3.5-122B-A10B Q6/fp8 (~75-80 Go) ; QwQ-32B bf16 reasoning
  • Recherche profonde : DeepSeek-V3/R1/V3.1/V3.2 fp8-native Q2 (~215 Go) avec débordement de RAM sur un hôte de 512 Go — faisable pour le traitement par lots ; DeepSeek-R2 32B bf16 multi-flux (4 simultanés, un par carte)
  • GLM / Z.ai : GLM-4.5-Air 106B/12B fp8 (~106 Go) ou Q6 sans problème ; GLM-4.5/4.6/4.7 Q2_K_XL (~135 Go) limite avec le déchargement MoE
  • Tencent Hunyuan : Hunyuan-A13B fp8 natif (~80 Go) — Blackwell exécute fp8 sans pénalité de conversion ascendante ; Hunyuan-Large Q2 avec débordement de RAM
  • Graine ByteDance-OSS-36B bf16 avec 512k natif ; ERNIE-4.5-424B Q2 (~150 Go de débordement)

Frontière de l'Ouest

  • Méta-lama : Llama 3.3 70B Q4 sur 4x 5090 (~30-40 tok/s en flux unique, ~270+ tok/s en batch-32 vLLM) ; Llama 4 Scout 109B/17B MoE fp8/Q6 (~90 Go) ; Llama 4 Maverick 400B/17B Q3 (~188 Go de données en débordement)
  • Mistral: Mistral Petit 3 / Magistral / Devstral Petit 2 (24 octets) bf16 multi-flux ; Pixtral Grand / Mistral Grand 2 (123 octets) Q6 (~88 Go)
  • OpenAI (poids ouverts) : gpt-oss-120b MXFP4 natif (80 Go) avec KV réel et contexte long — Charge de travail Blackwell Hero ; gpt-oss-20b MXFP4
  • Google Gemma 3 : 27 octets bf16 multimodal (~54 Go) deux flux simultanés ; 12 octets / 4 octets
  • Microsoft Phi-4 14B dense bf16 ; Phi-4-raisonnement distillé
  • NVIDIA Nemotron : Llama-3.1-Nemotron Ultra 253B Q3 (~119 Go) serré ; Super 49B bf16 (~98 Go)
  • Autres : Cohere Command R+ 104B Q6 (~85 Go) ; Molmo 72B Q6-bf16 VLM ; OLMo 2 32B ; IBM Granite 4.0 H-Small

Modèles Vision-Langage

Qwen3-VL-235B-A22B Q3-Q4; Qwen3-VL-32B bf16; InternVL3.5-241B-A28B Q4 (~135 Go compact); InternVL3 78B bf16; Llama 3.2 90B Vision Q6 (~74 Go); Pixtral Large 124B Q6 (~88 Go); Molmo 72B Q6/bf16; Gemma 3 27B multimodal bf16; GLM-4.6V 106B fp8.

Génération d'images

FLUX.1 [dev] bf16 et fp8 (~10-18 s/image à fp8) ; FLUX.1 Kontext [dev] ; SD 3.5 Large bf16 ; HunyuanImage-2.1 bf16 et Q4 ; HunyuanImage-3.0 base (80B MoE, 13B actifs) bf16 (~80 Go, empreinte hero) ; HunyuanDiT ; Kolors / Kolors 2.0 ; AuraFlow v0.3 ; OmniGen v1 ; PixArt-Sigma.

Génération vidéo

Wan 2.2 MoE deux experts bf16 (~54 Go, ctx complet) ; Wan 2.2 TI2V-5B ; HunyuanVideo 13B bf16 deux experts (~60-80 Go) ; HunyuanVideo 1.5 ; CogVideoX-5B bf16 ; Open-Sora 2.0 11B bf16 (~24 Go) ; Genmo Mochi-1 bf16 (~42 Go) ; LTX-Video ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos.

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 large / turbo (~50x temps réel) ; Parakeet-TDT ; Canary 1B ; Qwen3-ASR ; SenseVoice
  • STT : CosyVoice 2/3 ; Kokoro 82M ; Stable Audio Open ; XTTS v2 ; StyleTTS 2 ; Step-Audio-EditX
  • Temps réel / S2S : Kyutai Moshi 7B ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
  • Musique / Effets sonores : MusicGen / AudioGen / Bark ; SeamlessM4T v2

Service multi-modèles / multi-locataires

  • 200 milliards de MoE au T4 avec inférence par lots (Qwen3-235B, GLM-4.5/4.6/4.7-Air) pour 8 à 16 utilisateurs simultanés
  • fp8-native frontier — Famille DeepSeek V3, Hunyuan-Large fp8 avec chemins natifs Blackwell
  • Pile logicielle mixte : gpt-oss-120b MXFP4 + FLUX.1 + Whisper + Moshi sur VRAM partitionnée
  • 70 milliards de données à haut débit — vLLM/SGLang parallèle tensoriel avec un agrégat de lots de plus de 200 tok/s

Charges de travail cibles

  • Production de plus de 200 milliards de MoE en service au 3e et 4e trimestre avec KV réel (Qwen3-235B, GLM-4.5-Air 106B)
  • Inférence de frontière native fp8 (DeepSeek V3/R1 fp8, Hunyuan fp8) — Blackwell fonctionne sans upcast
  • Traitement à haut débit de 70 milliards d'unités — traitement par lots parallèle tensoriel via vLLM ou SGLang
  • Studio de génération vidéo à bf16 (Wan 2.2 double expert, HunyuanVideo 13B, Mochi-1)
  • Charge de travail mixte multi-locataires — 120 milliards de MoE + génération d'images + voix en temps réel, tous résidents

Performance mesurée

Références publiées | Fiche technique NVIDIA RTX 5090 + benchmarks de la communauté

référence Résultat
Performances maximales INT8 par carte (fiche technique NVIDIA) 1 676 TOPS
Total INT8 TOPS (4 cartes) 6 704 TOPS
Bande passante mémoire par carte ~1 792 Go/s
Llama 3.3 70B Q6 via vLLM (communauté) 60 à 90 tok/s en flux unique, plus de 300 tok/s par lot
Qwen3-235B-A22B Q3-Q4 Compatible avec un pool de 128 Go et des CTX de 8 à 16 000 unités.
gpt-oss-120b MXFP4 natif 80 Go — confortable avec la marge dynamique KV

Les données de référence externes publiées n'ont pas été mesurées sur du matériel Kentino. Kentino publiera ses propres résultats après la première livraison au client.

Pas idéal pour

  • Frontier 400B+ au T4 (Kimi-K2, Mistral Large 3, Intern-S1-Pro — nécessitent 8 GPU ou 6 RTX Pro 6000)
  • Charges de travail sensibles à la liaison PCIe Gen5 — choisissez la référence Genoa pour une connectivité Gen5 native x16
  • Formation à partir de zéro (pas de NVLink sur le 5090 grand public)
  • Production 24h/24 et 7j/7 sensible à la mémoire ECC — la 5090 grand public ne prend pas en charge la mémoire ECC ; privilégiez la L40 ou la RTX Pro 6000 Server Edition.

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • Remplacez l'alimentation par un modèle double de 2.5 kW (FSP) pour une utilisation intensive et soutenue de BF16 avec vidéo (recommandé pour un fonctionnement 24h/24 et 7j/7).
  • Disque NVMe de 4 To pour la bibliothèque de modèles + mise en place du poids MoE
  • Armoire ouverte 24U pour déploiement multi-serveurs
  • Envisagez la variante plateforme Genoa sur demande pour le lien Gen5 x16
Voir tous les détails