Kentino Ltd
K-AI 48 Rome 4090 1322TOPS — Serveur d'IA d'entrée de gamme avec 2 cartes graphiques RTX 4090
K-AI 48 Rome 4090 1322TOPS — Serveur d'IA d'entrée de gamme avec 2 cartes graphiques RTX 4090
Impossible de charger la disponibilité du ramassage
K-AI 48 Rome 4090 1322TOPS
Serveur d'entrée de gamme à 2 GPU avec 48 Go de VRAM
2x RTX 4090 | EPYC Rome | 1 322 TOPS INT8
48 Go de VRAM répartis sur deux RTX 4090 — le coût minimal pour l'inférence parallèle de tenseurs de classe 32B.
Un serveur d'IA de classe station de travail Ada à deux GPU, basé sur ROMED8-2T / EPYC Rome. Deux RTX 4090 offrent une mémoire vidéo partagée de 48 Go, permettant de gérer aisément des données denses de 32 bits (Q6-Q8), Hunyuan-A13B en Q6, la vidéo Wan 2.1 (14 bits) et la vision Pixtral (12 bits) — le meilleur rapport qualité-prix de la gamme Kentino, avant de passer à Blackwell.
Hardware
| Composant | Détails |
|---|---|
| GPU | 2 cartes graphiques NVIDIA GeForce RTX 4090 24 Go GDDR6X (450 W, PCIe 4.0 x16) |
| Pool de VRAM | 48 Go (sans NVLink — parallélisme tensoriel sur PCIe) |
| Processeur | AMD EPYC 7542 Rome (32 cœurs/64 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 128 Go DDR4-2666 ECC RDIMM (2 x 64 Go) |
| Démarrage / stockage | SSD NVMe M.1 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | Alimentation ATX simple de 2 kW |
| Châssis | Rehausseurs passifs Gen4 x16 pour montage en rack 4U |
| Refroidissement | Refroidisseur tour SP3, 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm |
| Réseau | Double interface 10 GbE intégrée (Intel X550) + IPMI |
Enveloppe de puissance
- Consommation du GPU : 2 x 450 W = 900 W
- Puissance totale du système à pleine charge : ~1 225 W
- Puissance totale de l'alimentation : 2 000 W (une seule alimentation ATX de 2 kW) — marge de 38.75 %
- marge confortable pour une seule alimentation
Topologie des voies
ROMED8-2T distribue 2 ports PCIe Gen4 x16 directement depuis le processeur, sans commutateur PLX. La 4090 grand public ne dispose pas de NVLink ; la communication parallèle des tenseurs s'effectue via PCIe. Les deux GPU utilisent PCIe Gen4 x16.
Ce que vous pouvez courir
Avec 48 Go de VRAM mutualisée sur 2 cartes, ce serveur gère les LLM denses de classe 32B au niveau Q6-Q8, les fleurons du MoE, la génération d'images et de vidéos, l'IA vocale et le service multi-locataires.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3-32B dense Q6-Q8 (~25-35 tok/s flux unique sur 2x 4090, référence publiée) ; QwQ-32B Q6; Qwen3.5-27B Q6-Q8
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 Go serré ; utiliser Q6)
- Hunyuan-A13B Q6 ou fp8 (~48 Go) — 80 octets/13 octets MoE, 256 kbps
- Graine-OSS-36B Q6 — 512k ctx natif
- DeepSeek-R2 32B MoE clairsemé bf16 (~64 Go compact — privilégier Q6 ~45 Go) (~30-40 tok/s flux unique au Q4, référence publiée)
- ERNIE-4.5-47B-A3B Q4 (~28 Go avec marge de manœuvre) / Q6 (~42 Go)
Frontière de l'Ouest
- Lama 3.3 70B Q4_K_M (~43 Go) parallélisme tensoriel bidirectionnel — le point fort de cette classe (~14-17 tok/s en flux unique sur 2x 4090, référence publiée)
- Llama 4 Scout 109B/17B MoE Q3_K (~51 Go serré)
- Mistral Petit 3 / Magistral Petit / Devstral Petit 2 (24B) bf16
- Mixtral 8x7B Q6
- Gemma 3 27B bf16; Phi-4 14B bf16
- Nemotron-Super 49B Q4 (~28 Go)
- Autres : OLMo232B; Reka Flash 3 21B bf16; Faucon H1R 7B
Vision-Langage
Qwen3-VL-32B / Qwen3-VL-30B-A3B MoE / Qwen3-Omni-30B-A3B; InternVL3-38B Q4-Q5; InternVL3.5-38B; DeepSeek-VL2; ERNIE-4.5-VL-28B-A3B-Thinking; Llama 3.2 11B Vision bf16; Pixtral 12B bf16; Gemma 3 27B multimodal; PaliGemma 2 28B Q4; MiniCPM-V 2.6 / MiniCPM-o 2.6.
Génération d'images
FLUX.1 [dev] / [schnell] fp16 (24 Go) ou fp8 (~12 Go) avec batch généreux (~15-25 secondes par image 1024x1024 à fp8 par carte, référence publiée) ; FLUX.1 Kontext [dev] ; SD 3.5 Large (18 Go fp16) ; SDXL 1.0 + ControlNet + AnimateDiff ; HunyuanImage-2.1 bf16 (~34 Go tiennent dans le pool) ; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0.
Génération vidéo
Wan 2.1 14B T2V/I2V Q6/fp8 ; Wan 2.2 TI2V-5B bf16 carte unique ; Wan 2.2 T2V-A14B / I2V-A14B Q4 (~32 Go) ; HunyuanVideo 13B Q4-Q5 (~30 Go) ; HunyuanVideo 1.5 (8.3 octets) bf16 ; Open-Sora 2.0 (11 octets) Q8 ; CogVideoX-5B / 1.5 bf16 ; Mochi-1 Q4-Q8 ; LTX-Video 2B ; Pyramid Flow 2B.
Audio / Parole / Synthèse vocale
Une configuration complète de 24 Go permet une utilisation simultanée : Whisper v3 large + Parakeet-TDT + Canary 1B + Moshi + Step-Audio 2 mini + CosyVoice 3.0 + Kokoro 82M + Stable Audio. Tous ces programmes peuvent être ouverts simultanément. Whisper v3 turbo fonctionne à environ 50 fois la vitesse réelle sur une seule carte (référence publiée).
Multi-modèles / multi-locataires
- 2 à 4 utilisateurs simultanés sur 32B LLM de classe Q6 via vLLM parallélisme tensoriel
- Charge de travail mixte : Qwen3-32B Q6 (~20 Go) + FLUX.1 fp8 (~12 Go) + Whisper-turbo (1.6 Go) + Moshi (8 Go) répartis sur 2 cartes
- Réglage fin LoRA/QLoRA des modèles 7-14B confortable, 24-32B serré
Charges de travail cibles
- Station de travail IA à deux opérateurs avec piles LLM + image + audio mixtes
- Point de terminaison de service de classe 32B pour un environnement de développement en petite équipe (4 à 8 utilisateurs simultanés sur Qwen3-32B / Gemma 3 27B)
- Production par lots du pipeline de génération d'images (FLUX.1 + SD 3.5 + ControlNet)
- Boîtier de développement Video-gen (Wan 2.1 / Wan 2.2 TI2V / HunyuanVideo 1.5)
- Boîte de recherche de réglage fin LoRA / QLoRA pour les poids chinois et occidentaux 7-34B
Références de performance publiées
Référence publiée | Matériel équivalent à 2 cartes graphiques RTX 4090
| référence | Résultat |
|---|---|
| Llama 3.3 70B Q4_K_M décodage lama.cpp | ~14-17 tok/s flux unique |
| Qwen3-32B Q6 vLLM flux unique | ~35-45 tok/s décodage |
| FLUX.1 [dev] fp8 | Environ 2.5 à 3.0 s par image 1024x1024 à 20 étapes |
| Agrégat vLLM lot-32 (extrapolé à partir de 4x4090) | ~90 tok/s en moyenne |
Points de référence publiés à partir de matériel 2x4090 comparable. Mesures non effectuées sur du matériel Kentino.
Pas idéal pour
- 70 octets de mémoire dense au niveau Q6+ (nécessite un pool de 96 Go — passez à 4 RTX 4090 ou 4 RTX 5090)
- Frontier 100B+ MoE à bf16 (GLM-4.5, Kimi K2, Mistral Large 3)
Garantie et délai de livraison
La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Mettez à niveau votre disque de démarrage vers un disque NVMe de 2 To.
- Augmentez la RAM à 256 Go (4 x 64 Go) — plus de marge de manœuvre pour le cache KV et les performances MoE à long terme
- Unité de distribution d'alimentation (PDU) rack (avec compteur C13/C19) et onduleur en ligne de 2 kVA
Share
