Pomiń, pour fournir des informations sur la production
1 z 7

Kentino Ltd

K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Double EPYC Milan

K-AI 192 RomeDual 4090 5288TOPS — 8× RTX 4090 — Double EPYC Milan

Prix ​​régulier €32.280,00 EUR
Prix ​​régulier Prix ​​promotionnel €32.280,00 EUR
En promotion Épuisé
Avec quels noms podatkami. Frais de port Calculé à la caisse.

K-AI 192 RomeDual 4090 5288TOPS

Serveur d'inférence 8 GPU avec 192 Go de VRAM
8x RTX 4090 | Double EPYC Milan | 5 288 TOPS INT8

5:288
INT8 TOPS
192 GB
Pool de VRAM
8 GPU
parallèle tenseur
double
Processeur 96C/192T

Boîtier haut de gamme équipé de 8 GPU pour le jeu. 192 Go de stockage interne à un prix abordable sur une plateforme EPYC Milan biprocesseur.

Un châssis 7U pour 8 GPU, construit autour de deux processeurs EPYC 7643 Milan (96 cœurs/192 threads au total), d'une carte mère ASRock Rack ROME2D32GM-NL double SP3, de 512 Go de mémoire DDR4 ECC, d'un disque SSD NVMe de 2 To pour le système d'exploitation et d'une alimentation serveur 5 x 1200 W. Huit cartes graphiques GeForce RTX 4090 sont connectées via des risers PCIe Gen4 actifs en x16. La solution la plus économique pour l'inférence MoE sur 192 Go avec du matériel Kentino.

Hardware

Composant Détails
GPU 8 cartes graphiques NVIDIA GeForce RTX 4090 24 Go GDDR6X (Ada Lovelace, 450 W, PCIe 4.0 x16)
Pool de VRAM 192 Go au total répartis sur 8 cartes (pas de NVLink sur la RTX 4090 grand public)
Processeur 2x AMD EPYC 7643 Milan (48C/96T chacun — 96C/192T au total, 225 W chacun, 2x 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROME2D32GM-NL (double SP3, PCIe 4.0, 32 emplacements DIMM DDR4 ECC)
RAM système 512 Go DDR4-2666 ECC RDIMM (8x 64 Go — 4 par socket pour un équilibre à 8 canaux)
Démarrage / stockage SSD NVMe M.2 de 2 To (PCIe 4.0 x4)
Source d'alimentation Ensemble de 5 alimentations serveur de 1200 W (compatibles HP, remplaçables à chaud) + kit complet d'adaptateurs 12VHPWR
Châssis Châssis 7U à 8 GPU (jusqu'à 10 cartes PCIe, y compris les cartes d'extension)
risers 8 cartes d'extension actives PCIe Gen4 x16 (nécessaires sur toute la longueur du câble)
Refroidissement 2 refroidisseurs tour Arctic Freezer 4U-M SP3 + flux d'air avant-arrière pour montage en rack (ventilateurs industriels)
Réseau Double interface Ethernet 10 GbE intégrée (Intel X550)

Enveloppe de puissance

  • Consommation du GPU : 8 x 450 W = 3 600 W
  • Consommation du processeur : 2 x 225 W = 450 W
  • Puissance totale du système à pleine charge : ~4 200 W
  • Puissance totale de l'alimentation : 6 000 W (5 x 1 200 W) – Marge de 30 %

Topologie des voies

La carte mère ROME2D32GM-NL expose deux lignes PCIe Gen4 de 128 bits (une ligne par socket EPYC) directement aux emplacements GPU. Elle intègre des risers de retimer actifs Gen4 pour garantir l'intégrité du signal. Elle ne prend pas en charge les commutateurs PCIe ni NVLink. Un débit inter-GPU pair à pair de 19 à 22 Go/s a été mesuré sur une configuration à quatre GPU.

Ce que vous pouvez courir

Avec 192 Go répartis sur 8 cartes, ce serveur gère plus de 200 milliards de MoE de pointe au quatrième trimestre, l'inférence parallèle tensorielle à 8 voies, le service multi-modèles isolé pour chaque locataire et un débit par lots élevé à un coût comparable à celui des cartes grand public.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3 / Qwen3.5 (Alibaba) : Qwen3-235B-A22B Q4 (~132 Go) avec CTX long — configuration optimale (~15-25 tok/s en flux unique sur 8 RTX 4090) ; Qwen3-Coder-480B-A35B Q2 (~160 Go) ; Qwen3.5-122B-A10B fp8 (~75 Go) multi-flux ; Qwen3-32B bf16 dense x en simultané
  • Recherche profonde : DeepSeek-V3/R1 Q2 (~215 Go avec 512 Go de débordement hôte) ; DeepSeek-R2 32B bf16 — jusqu'à 8 flux simultanés, un par carte (~30-40 tok/s par flux)
  • GLM / Z.ai : GLM-4.5 / 4.6 / 4.7 Q4 (~177 Go) ; GLM-4.5-Air fp8 ou bf16 ; GLM-4.6V 106B
  • Tencent Hunyuan : Hunyuan-Large Q3 (~ 160 Go) ; Hunyuan-A13B Q4/Q6 (RTX 4090 est Ada — upcasts fp8 vers bf16, utilisez les quants GGUF)
  • Autres : Baidu ERNIE-4.5-424B Q3 ​​(~ 180 Go) ; InternVL3.5-241B-A28B Q4 (~ 135 Go) ; Qwen3.5-397B Q3 (~ 170 Go) ; MiniMax-M1 Q3 (~ 180 Go)

Frontière de l'Ouest

  • Méta-lama : Llama 3.3 70B bf16 avec KV massif (~20 tok/s en flux unique Q4, ~179 tok/s en batch-32 vLLM — Kentino mesuré sur un banc d'essai à 4 GPU) ; Llama 4 Scout bf16 (~218 Go en mode serré) ; Llama 4 Maverick Q3 (~188 Go)
  • Mistral: Mistral Large 2 / Pixtral Large 123B Q6 confortable ou bf16 (environ 248 Go de débordement) ; Mistral Small 3 multi-flux
  • OpenAI (poids ouverts) : gpt-oss-120b MXFP4 natif (80 Go) avec un KV énorme
  • NVIDIA Nemotron : Llama-3.1-Nemotron Ultra 253B Q4 (~ 147 Go) ; Super 49B bf16
  • Autres : Cohere Command R+ 104B Q6 (~85 Go) ; Google Gemma 3 27B bf16 x flux multiples

Modèles Vision-Langage

InternVL3.5-241B-A28B Q4 (~135 Go); Qwen3-VL-235B-A22B Q4; Qwen3-VL-32B bf16 multi-flux; Llama 3.2 90B Vision bf16 (~180 Go); Pixtral Large 124B Q6; Molmo 72B bf16; GLM-4.6V 106B fp8/Q6; Gemma 3 27B multimodal x flux multiples.

Génération d'images

FLUX.1 [dev] bf16 — jusqu'à 8 flux de génération simultanés (un par carte, ~15-25 s/image à fp8) ; FLUX.1 Kontext [dev] ; FLUX Tools ; SD 3.5 Large bf16 x 8 ; HunyuanImage-2.1 bf16 (~34 Go) x 2-4 simultanés ; HunyuanImage-3.0 base (80 octets MoE, 13 octets actifs) bf16 ; HunyuanDiT ; Kolors / Kolors 2.0 ; AuraFlow ; OmniGen v1 ; PixArt-Sigma.

Génération vidéo

Wan 2.2 MoE double expert bf16 avec ctx complet — flux multiples simultanés ; Wan 2.2 TI2V-5B x 8 simultanés ; HunyuanVideo 13B bf16 les deux experts ; HunyuanVideo 1.5 ; CogVideoX-5B bf16 ; Open-Sora 2.0 11B bf16 ; Genmo Mochi-1 bf16 ; LTX-Video x 8 simultanés ; Pyramid Flow ; SVD / SV3D / SV4D ; NVIDIA Cosmos.

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 large / turbo x 8 simultanés (~50 fois le temps réel par flux) ; Parakeet-TDT ; Canary 1B ; Qwen3-ASR ; SenseVoice
  • STT : CosyVoice 2/3 ; Kokoro 82M ; XTTS v2 ; Stable Audio Open
  • Temps réel / S2S : Kyutai Moshi 7B x 8 flux vocaux simultanés ; Step-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
  • Musique / Effets sonores : MusicGen / AudioGen / Bark ; SeamlessM4T v2

Service multi-modèles / multi-locataires

  • Inférence parallèle tensorielle à 8 voies de 200-250B MoE au Q4 (Qwen3-235B, GLM-4.5/4.6/4.7)
  • Diffusion de 8 flux isolée par locataire — un modèle Q4 de 24 Go par carte (par exemple, 8 agents Qwen3-14B)
  • Lot de 70 milliards de bits — agrégat vLLM/SGLang parallèle par tenseur - lot de 64
  • Flotte mixte : 235 milliards de MoE sur 4 cartes (TP4) + FLUX + vidéo + voix en temps réel sur les 4 autres.
  • Laboratoire de mise au point — 7-34B LoRA / QLoRA avec traitement par lots de grande taille

Charges de travail cibles

  • Inférence parallèle tensorielle sur 8 GPU avec un pool de 192 Go — Qwen3-235B Q4, GLM-4.5/4.6/4.7 Q4, Llama 4 Scout bf16
  • 70B bf16 dense (Llama 3.3 70B) avec une marge de KV importante pour une transmission longue et un traitement par lots élevé
  • Passerelle d'inférence par lots à haut débit — vLLM / SGLang parallélisme tensoriel sur de grands lots
  • Optimisation des modèles de classe 7-34B avec LoRA/QLoRA à lots élevés
  • Studio vidéo et image Wan 2.2 double expert / HunyuanImage-3.0 / FLUX.1 flux de travail complet

Performance mesurée

Banc de test Kentino (référence 4 GPU) | 10/04/2026 | 4x RTX 4090 + EPYC 7542 + 512 Go DDR4 + ROMED8-2T

référence Résultat
Calcul soutenu (fp16, référence 4 cartes) 647 TFLOPS
vLLM — Lama 3.3 70B AWQ INT4 (simple) 8.0 tok/s
vLLM — Lama 3.3 70B AWQ INT4 (lot-32) 179 tok/s en moyenne
lama.cpp — Lama 3.3 70B Q4_K_M (simple) Décodage à 20.3 tok/s
Calcul agrégé sur 8 GPU (extrapolation) ~1 294 TFLOPS fp16 attendu (quasi-linéaire)
235B Q4 tenseur-parallèle 8 voies (communauté) 15-25 tok/s en flux unique sur 8x RTX 4090

Données à 4 cartes mesurées sur du matériel Kentino. L'extrapolation à 8 GPU est issue d'une référence externe. Kentino publiera ses propres résultats à 8 GPU après la première livraison à un client.

Pas idéal pour

  • Charges de travail de génération 5090 (Blackwell fp8 natif + TOPS plus élevés) — voir K-AI 256 TurinDual 5090
  • Formation à partir de zéro (sans NVLink sur une RTX 4090 grand public)
  • Production 24h/24 et 7j/7 sensible à la correction d'erreurs (ECC) — la RTX 4090 grand public ne prend pas en charge l'ECC ; privilégiez une configuration avec 4 puces L40 ou 2 RTX Pro 6000 Server Edition.
  • Hunyuan / DeepSeek fp8 natif — RTX 4090 utilise Ada, les points de contrôle fp8 sont convertis vers bf16

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La configuration comprend l'assemblage, la configuration du BIOS avec optimisation NUMA pour double socket, l'installation des pilotes, le rodage, le test de mémoire, un test de stress complet sur 8 GPU et la configuration de l'environnement LLM. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • 4 To NVMe supplémentaires pour la mise en réserve des charges de travail et le déchargement des charges de travail MoE
  • NVIDIA ConnectX-5 100 GbE pour la diffusion multi-nœuds
  • Mise à niveau de la RAM à 1 To (16 x 64 Go) ou 2 To (32 x 64 Go) — la carte mère prend en charge 32 emplacements DIMM
  • Baie rack 24U complète + onduleur en ligne 5 kVA
Pokaż kompletne danois