Kentino Ltd
K-AI 64 Rome 5090 3352TOPS — Serveur d'IA Blackwell Entry avec 2 cartes graphiques RTX 5090
K-AI 64 Rome 5090 3352TOPS — Serveur d'IA Blackwell Entry avec 2 cartes graphiques RTX 5090
Impossible de charger la disponibilité du ramassage
K-AI 64 Rome 5090 3352TOPS
Serveur d'entrée Blackwell à 2 GPU
2x RTX 5090 | EPYC Milan | 3 352 TOPS INT8
Serveur Blackwell d'entrée de gamme à 2 GPU — 64 Go de VRAM partagée, 3 352 TOPS INT8, fp8 natif. L'évolution d'Ada vers Blackwell par rapport à 2x4090.
Un serveur d'IA Blackwell à deux GPU, basé sur ROMED8-2T / EPYC Milan. Deux RTX 5090 offrent une enveloppe de VRAM mutualisée de 64 Go avec calculs tensoriels natifs en fp8, soit environ le double des performances brutes de deux RTX 4090 dans le même format. Il s'agit du premier serveur à deux GPU capable d'exécuter sans problème Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 et HunyuanVideo en bf16 / fp8 avec une marge de sécurité.
Hardware
| Composant | Détails |
|---|---|
| GPU | 2x NVIDIA GeForce RTX 5090 32 Go GDDR7 (575 W, PCIe 5.0 x16, Blackwell) |
| Pool de VRAM | 64 GB |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 128 Go DDR4-2666 ECC RDIMM (2 x 64 Go) |
| Démarrage / stockage | SSD NVMe M.1 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | Alimentation ATX simple de 2 kW |
| Châssis | Rehausseurs passifs Gen4 x16 pour montage en rack 4U |
| Refroidissement | Refroidisseur tour SP3, 3 entrées d'air avant de 120 mm + 1 extraction arrière de 120 mm (ventilateurs industriels) |
| Réseau | Double interface 10 GbE intégrée (Intel X550) + IPMI |
Enveloppe de puissance
- Consommation du GPU : 2 x 575 W = 1 150 W
- Puissance totale du système à pleine charge : ~1 475 W
- Puissance totale de l'alimentation : 2 000 W (une seule alimentation ATX de 2 kW) — marge de 26.25 %
- Marge de manœuvre acceptable avec une seule alimentation ; possibilité de mise à niveau vers une double alimentation pour plus de flexibilité.
Topologie des voies
ROMED8-2T distribue 2 x 16 cœurs Gen4 à partir du processeur. La 5090 est une puce Gen5 fonctionnant avec 16 cœurs Gen4 sans perte de bande passante pour l'inférence. Pas de commutateur PCIe. Pas de NVLink sur la GeForce 5090 : le P2P bidirectionnel parallèle par tenseur utilise PCIe.
Ce que vous pouvez courir
Avec 64 Go de VRAM GDDR7 mutualisée sur 2 cartes Blackwell, ce serveur gère 70B Q4 tensor-parallel, les fleurons MoE, la génération d'images fp8 natives, l'IA vidéo et le service simultané multi-modèles.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3-32B Q8 / bf16 (qualité proche de fp16) (~40-55 tok/s en flux unique sur Blackwell fp8, référence publiée)
- QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (environ 60 Go)
- Qwen3.5-122B-A10B Q4 (environ 70-75 Go avec débordement de RAM) — Le fleuron du ministère de l'Éducation au Q4 correspond
- Hunyuan-A13B fp8 (~80 Go serré) ou Q6 (~36 Go confortable)
- Graine-OSS-36B bf16 (environ 72 Go, taille limite — privilégiez fp8 environ 36 Go)
- DeepSeek-R2 32B MoE clairsemé bf16
- GLM-4.5-Air 106B/12B Q4_K_M (~60 Go) — MoE avec marge de sécurité
- ERNIE-4.5-47B-A3B Q6-Q8
Frontière de l'Ouest
- Lama 3.3 70B Q4_K_M (~43 Go) — la charge de travail principale pour ce niveau (~20-28 tok/s en flux unique sur 2x 5090, référence publiée)
- Hermes 3 70B / Tulu 3 70B Q4 — Dérivés de Llama ouverts après l'entraînement
- Mistral Petit 3 / Magistral / Devstral Petit 2 24B bf16; Mixtral 8x7B bf16
- Gemma 3 27B bf16 multimodal + marge de réflexion
- Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
- gpt-oss-20b MXFP4 (16 Go) + gpt-oss-120b MXFP4 (80 Go — s'adapte parfaitement avec un ctx court)
- OLMo 2 32B / OLMo 3.1-32B-Think bf16
Vision-Langage
Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16 ; StagiaireVL3.5-38B bf16 ; Lama 3.2 90B Vision Q4 (~ 52 Go); Pixtral 12B bf16 ; Pixtral Large 124B Q3 (~ 58 Go serrés) ; Gemma 3 27B multimodal bf16 ; PaliGemma 2 28B bf16 ; Molmo 72B Q4 (~ 45 Go).
Génération d'images
La 5090 native fp8 est la clé de la vitesse — FLUX.1 / SD 3.5 / HunyuanImage s'exécutent nettement plus rapidement que sur Ada : FLUX.1 [dev] / [schnell] fp8 natif (~12 Go) avec 2x parallèle sur les cartes (~8-12 secondes par image 1024x1024 sur Blackwell, référence publiée) ; FLUX.1 Kontext [dev] ; SD 3.5 Large (18 Go fp16 ou 11 Go fp8) ; SDXL 1.0 ; HunyuanImage-2.1 bf16 (~34 Go) ; HunyuanImage-3.0 NF4 ; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 Go au total) — MoE deux experts en pleine précision ; Wan 2.2 TI2V-5B bf16 par carte, 2 locataires parallèles ; HunyuanVideo 13B Q4-Q5 (~30 Go), fp8 serré ; HunyuanVideo 1.5 (8.3 octets) bf16 par carte ; Open-Sora 2.0 (11 octets) bf16 ; CogVideoX-5B / 1.5 bf16 ; Mochi-1 bf16 (~42 Go) ; LTX-Video 2B ; NVIDIA Cosmos Predict 2.
Audio / Parole / Synthèse vocale
La même pile vocale complète (chinois et occidental) que celle du modèle 4090 est compatible, avec une marge de manœuvre accrue : Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2/R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. Sur le 5090 natif fp8, Whisper/Parakeet décodent à un facteur temps réel nettement supérieur. Whisper v3 Turbo atteint environ 75 fois le temps réel sur Blackwell (référence publiée).
Multi-modèles / multi-locataires
- Pile logicielle résidente : Llama 3.3 70B Q4 (~43 Go, parallélisme tensoriel bidirectionnel) + FLUX.1 fp8 (~12 Go) + Whisper-turbo + Moshi
- 2 à 4 locataires simultanés sur une carte de classe 32B à Q6-Q8 par carte
- Réglage fin LoRA/QLoRA : bonnets 7-14B confortables, 24-32B serrés
Charges de travail cibles
- Poste de travail pour développeurs en petite équipe avec une marge de manœuvre de 70 milliards de dollars pour le quatrième trimestre
- Amélioration de la Blackwell par rapport à une configuration avec 2 RTX 4090 : même châssis, performances TOPS environ 2.5 fois supérieures, prise en charge native de fp8
- Station de travail de génération d'images/vidéos avec accélération native FLUX fp8
- Boîtier multi-modèles simultanés : 70B Q4 + FLUX + Whisper + Moshi installés simultanément
- 4 à 8 points de terminaison d'inférence utilisateur simultanés pour les LLM de classe 32B
Références de performance publiées
Référence publiée | Matériel équivalent à 2 cartes graphiques RTX 5090
| référence | Résultat |
|---|---|
| Llama 3.3 70B Q4_K_M décodage lama.cpp | ~20-28 tok/s flux unique |
| Qwen3-32B Q8 vLLM flux unique | ~45-60 tok/s décodage à fp8 |
| FLUX.1 [dev] fp8 natif Blackwell | Environ 1.5 à 1.9 s par image 1024x1024 à 20 étapes |
| HunyuanVidéo 13B Q5 TP-2 | 5 s 720p en ~5-7 min |
Données publiées, non mesurées sur du matériel Kentino. Référence mesurée par Kentino sur 4x RTX 4090 : 647 TFLOPS fp16, 179 tok/s agrégé par lots de 32.
Pas idéal pour
- Plus de 100 milliards de modèles denses au niveau de bf16 (DeepSeek-V3, Kimi K2, Mistral Large 3 — nécessite un pool de plus de 256 Go)
- Génération vidéo Frontier au format long 16 en pleine résolution
Garantie et délai de livraison
La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Mettez à niveau votre disque de démarrage vers un disque NVMe de 2 To ou de 4 To.
- Mise à niveau de la RAM à 256 Go (4 x 64 Go) — Marge de cache MoE KV / service simultané multi-modèles
- Unité de distribution d'alimentation (PDU) rack (avec compteur C13/C19) et onduleur en ligne de 3 kVA
Share
