Passer aux informations sur le produit
1 of 14

Kentino Ltd

K-AI 64 Rome 5090 3352TOPS — Serveur d'IA Blackwell Entry avec 2 cartes graphiques RTX 5090

K-AI 64 Rome 5090 3352TOPS — Serveur d'IA Blackwell Entry avec 2 cartes graphiques RTX 5090

Prix ​​habituel €11.653,00 EUR
Prix ​​habituel Prix ​​de vente €11.653,00 EUR
Soldes Épuisé
Taxes incluses. Hors transport Livraison calculés à la caisse

K-AI 64 Rome 5090 3352TOPS

Serveur d'entrée Blackwell à 2 GPU
2x RTX 5090 | EPYC Milan | 3 352 TOPS INT8

3:352
TOPS INT8
64 GB
VRAM GDDR7
fp8
tenseur natif
rack
solutions

Serveur Blackwell d'entrée de gamme à 2 GPU — 64 Go de VRAM partagée, 3 352 TOPS INT8, fp8 natif. L'évolution d'Ada vers Blackwell par rapport à 2x4090.

Un serveur d'IA Blackwell à deux GPU, basé sur ROMED8-2T / EPYC Milan. Deux RTX 5090 offrent une enveloppe de VRAM mutualisée de 64 Go avec calculs tensoriels natifs en fp8, soit environ le double des performances brutes de deux RTX 4090 dans le même format. Il s'agit du premier serveur à deux GPU capable d'exécuter sans problème Llama 3.3 70B Q4, Qwen3.5-122B-A10B Q4 et HunyuanVideo en bf16 / fp8 avec une marge de sécurité.

Hardware

Composant Détails
GPU 2x NVIDIA GeForce RTX 5090 32 Go GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
Pool de VRAM 64 GB
Processeur AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
RAM système 128 Go DDR4-2666 ECC RDIMM (2 x 64 Go)
Démarrage / stockage SSD NVMe M.1 de 2 To (PCIe 4.0 x4)
Source d'alimentation Alimentation ATX simple de 2 kW
Châssis Rehausseurs passifs Gen4 x16 pour montage en rack 4U
Refroidissement Refroidisseur tour SP3, 3 entrées d'air avant de 120 mm + 1 extraction arrière de 120 mm (ventilateurs industriels)
Réseau Double interface 10 GbE intégrée (Intel X550) + IPMI

Enveloppe de puissance

  • Consommation du GPU : 2 x 575 W = 1 150 W
  • Puissance totale du système à pleine charge : ~1 475 W
  • Puissance totale de l'alimentation : 2 000 W (une seule alimentation ATX de 2 kW) — marge de 26.25 %
  • Marge de manœuvre acceptable avec une seule alimentation ; possibilité de mise à niveau vers une double alimentation pour plus de flexibilité.

Topologie des voies

ROMED8-2T distribue 2 x 16 cœurs Gen4 à partir du processeur. La 5090 est une puce Gen5 fonctionnant avec 16 cœurs Gen4 sans perte de bande passante pour l'inférence. Pas de commutateur PCIe. Pas de NVLink sur la GeForce 5090 : le P2P bidirectionnel parallèle par tenseur utilise PCIe.

Ce que vous pouvez courir

Avec 64 Go de VRAM GDDR7 mutualisée sur 2 cartes Blackwell, ce serveur gère 70B Q4 tensor-parallel, les fleurons MoE, la génération d'images fp8 natives, l'IA vidéo et le service simultané multi-modèles.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3-32B Q8 / bf16 (qualité proche de fp16) (~40-55 tok/s en flux unique sur Blackwell fp8, référence publiée)
  • QwQ-32B bf16; Qwen3-30B-A3B / Coder-30B-A3B bf16 (environ 60 Go)
  • Qwen3.5-122B-A10B Q4 (environ 70-75 Go avec débordement de RAM) — Le fleuron du ministère de l'Éducation au Q4 correspond
  • Hunyuan-A13B fp8 (~80 Go serré) ou Q6 (~36 Go confortable)
  • Graine-OSS-36B bf16 (environ 72 Go, taille limite — privilégiez fp8 environ 36 Go)
  • DeepSeek-R2 32B MoE clairsemé bf16
  • GLM-4.5-Air 106B/12B Q4_K_M (~60 Go) — MoE avec marge de sécurité
  • ERNIE-4.5-47B-A3B Q6-Q8

Frontière de l'Ouest

  • Lama 3.3 70B Q4_K_M (~43 Go) — la charge de travail principale pour ce niveau (~20-28 tok/s en flux unique sur 2x 5090, référence publiée)
  • Hermes 3 70B / Tulu 3 70B Q4 — Dérivés de Llama ouverts après l'entraînement
  • Mistral Petit 3 / Magistral / Devstral Petit 2 24B bf16; Mixtral 8x7B bf16
  • Gemma 3 27B bf16 multimodal + marge de réflexion
  • Phi-4 14B bf16; Nemotron-Super 49B Q6-Q8
  • gpt-oss-20b MXFP4 (16 Go) + gpt-oss-120b MXFP4 (80 Go — s'adapte parfaitement avec un ctx court)
  • OLMo 2 32B / OLMo 3.1-32B-Think bf16

Vision-Langage

Qwen3-VL-32B / Qwen3-VL-30B-A3B / Qwen3-Omni-30B-A3B bf16 ; StagiaireVL3.5-38B bf16 ; Lama 3.2 90B Vision Q4 (~ 52 Go); Pixtral 12B bf16 ; Pixtral Large 124B Q3 ​​(~ 58 Go serrés) ; Gemma 3 27B multimodal bf16 ; PaliGemma 2 28B bf16 ; Molmo 72B Q4 (~ 45 Go).

Génération d'images

La 5090 native fp8 est la clé de la vitesse — FLUX.1 / SD 3.5 / HunyuanImage s'exécutent nettement plus rapidement que sur Ada : FLUX.1 [dev] / [schnell] fp8 natif (~12 Go) avec 2x parallèle sur les cartes (~8-12 secondes par image 1024x1024 sur Blackwell, référence publiée) ; FLUX.1 Kontext [dev] ; SD 3.5 Large (18 Go fp16 ou 11 Go fp8) ; SDXL 1.0 ; HunyuanImage-2.1 bf16 (~34 Go) ; HunyuanImage-3.0 NF4 ; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.

Génération vidéo

Wan 2.2 T2V-A14B / I2V-A14B bf16 (~54 Go au total) — MoE deux experts en pleine précision ; Wan 2.2 TI2V-5B bf16 par carte, 2 locataires parallèles ; HunyuanVideo 13B Q4-Q5 (~30 Go), fp8 serré ; HunyuanVideo 1.5 (8.3 octets) bf16 par carte ; Open-Sora 2.0 (11 octets) bf16 ; CogVideoX-5B / 1.5 bf16 ; Mochi-1 bf16 (~42 Go) ; LTX-Video 2B ; NVIDIA Cosmos Predict 2.

Audio / Parole / Synthèse vocale

La même pile vocale complète (chinois et occidental) que celle du modèle 4090 est compatible, avec une marge de manœuvre accrue : Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2/R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2 + MMS. Sur le 5090 natif fp8, Whisper/Parakeet décodent à un facteur temps réel nettement supérieur. Whisper v3 Turbo atteint environ 75 fois le temps réel sur Blackwell (référence publiée).

Multi-modèles / multi-locataires

  • Pile logicielle résidente : Llama 3.3 70B Q4 (~43 Go, parallélisme tensoriel bidirectionnel) + FLUX.1 fp8 (~12 Go) + Whisper-turbo + Moshi
  • 2 à 4 locataires simultanés sur une carte de classe 32B à Q6-Q8 par carte
  • Réglage fin LoRA/QLoRA : bonnets 7-14B confortables, 24-32B serrés

Charges de travail cibles

  • Poste de travail pour développeurs en petite équipe avec une marge de manœuvre de 70 milliards de dollars pour le quatrième trimestre
  • Amélioration de la Blackwell par rapport à une configuration avec 2 RTX 4090 : même châssis, performances TOPS environ 2.5 fois supérieures, prise en charge native de fp8
  • Station de travail de génération d'images/vidéos avec accélération native FLUX fp8
  • Boîtier multi-modèles simultanés : 70B Q4 + FLUX + Whisper + Moshi installés simultanément
  • 4 à 8 points de terminaison d'inférence utilisateur simultanés pour les LLM de classe 32B

Références de performance publiées

Référence publiée | Matériel équivalent à 2 cartes graphiques RTX 5090

référence Résultat
Llama 3.3 70B Q4_K_M décodage lama.cpp ~20-28 tok/s flux unique
Qwen3-32B Q8 vLLM flux unique ~45-60 tok/s décodage à fp8
FLUX.1 [dev] fp8 natif Blackwell Environ 1.5 à 1.9 s par image 1024x1024 à 20 étapes
HunyuanVidéo 13B Q5 TP-2 5 s 720p en ~5-7 min

Données publiées, non mesurées sur du matériel Kentino. Référence mesurée par Kentino sur 4x RTX 4090 : 647 TFLOPS fp16, 179 tok/s agrégé par lots de 32.

Pas idéal pour

  • Plus de 100 milliards de modèles denses au niveau de bf16 (DeepSeek-V3, Kimi K2, Mistral Large 3 — nécessite un pool de plus de 256 Go)
  • Génération vidéo Frontier au format long 16 en pleine résolution

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Mettez à niveau votre disque de démarrage vers un disque NVMe de 2 To ou de 4 To.
  • Mise à niveau de la RAM à 256 Go (4 x 64 Go) — Marge de cache MoE KV / service simultané multi-modèles
  • Unité de distribution d'alimentation (PDU) rack (avec compteur C13/C19) et onduleur en ligne de 3 kVA
Voir tous les détails