Pomiń, pour fournir des informations sur la production
1 z 7

Kentino Ltd

K-AI 96 Rome 4090 2644TOPS — Serveur d'inférence IA 4× RTX 4090

K-AI 96 Rome 4090 2644TOPS — Serveur d'inférence IA 4× RTX 4090

Prix ​​régulier €18.491,00 EUR
Prix ​​régulier Prix ​​promotionnel €18.491,00 EUR
En promotion Épuisé
Avec quels noms podatkami. Frais de port Calculé à la caisse.

K-AI 96 Rome 4090 2644TOPS

Serveur d'inférence avec 96 Go de VRAM
4x RTX 4090 | EPYC Rome | 2 644 TOPS INT8

647
TFLOPS fp16
179
tok/s lot-32
96 GB
Pool de VRAM
24/7
prêt à être rangé

Mesuré sur du matériel Kentino. Llama 3.3 70B AWQ INT4 via vLLM 0.19.0.

Serveur d'inférence rackable 4U équipé de quatre cartes graphiques GeForce RTX 4090 (96 Go de VRAM au total), d'un processeur AMD EPYC 7542 Rome (32 cœurs/64 threads), de 256 Go de mémoire DDR4 ECC, d'un disque SSD NVMe de 2 To pour le système d'exploitation et de deux alimentations ATX de 2 kW synchronisées. Compatible avec vLLM, SGLang, llama.cpp, ComfyUI et toutes les principales piles d'inférence open source.

Hardware

Composant Détails
GPU 4 cartes graphiques NVIDIA GeForce RTX 4090 24 Go GDDR6X (450 W, PCIe 4.0 x16)
Pool de VRAM 96 Go au total répartis sur 4 cartes
Processeur AMD EPYC 7542 Rome (32 cœurs/64 threads, 225 W, 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
RAM système 256 Go DDR4-2666 ECC RDIMM (4 x 64 Go)
Stockage SSD NVMe M.2 de 2 To (PCIe 4.0 x4)
PSU Double alimentation ATX de 2 kW avec câble de synchronisation
Châssis Système de montage en rack 4U, flux d'air dirigé de l'avant vers l'arrière
Refroidissement Refroidisseur tour SP3, 3 ventilateurs industriels de 120 mm à l'avant et 1 à l'arrière
Réseau Double interface Ethernet 10 GbE intégrée (Intel X550)

Enveloppe de puissance

  • Consommation du GPU : 4 x 450 W = 1 800 W
  • Puissance totale du système : ~2 125 W
  • Puissance totale de l'alimentation : 4 000 W (deux modules de 2 kW) — marge de 46.9 %
  • Alimentation partagée — une panne d’un seul bloc d’alimentation entraîne la perte de 2 cartes graphiques ou de 2 cartes graphiques et de la carte mère.

Topologie des voies

128 lignes PCIe Gen4 de l'EPYC vers sept emplacements x16 ; quatre occupés par des GPU en Gen4 x16. Pas de commutateur PCIe. Pas de NVLink — connexion peer-to-peer à 19-22 Go/s (mesurée par Kentino).

Ce que vous pouvez courir

Avec 96 Go de VRAM mutualisée sur 4 cartes, ce serveur prend en charge les LLM à poids ouvert, les modèles de vision, la génération d'images et de vidéos, l'IA vocale et le service multi-locataires.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3 / Qwen3.5 : Qwen3-72B Q4 (~15-20 tok/s) ; Qwen3-32B Q6 ; Qwen3-30B-A3B MoE Q4-Q6 ; Qwen3-Coder-30B-A3B à 256 kbps ; Qwen3.5-122B-A10B Q4 ; QwQ-32B
  • Recherche profonde : DeepSeek-R2 32B Q4-Q6 (92.7 % AIME 2025) ; DeepSeek-R1-Distill-Qwen-32B bf16 ; DeepSeek-V2-Lite 16B
  • GLM / Z.ai : GLM-4.5-Air 106B/12B Q4-Q5 ; GLM-4.6V-Flash ; GLM-Zero 9B
  • Hunyuan : Hunyuan-A13B Q4-Q6 (~48 Go) 256k ctx double mode de fonctionnement
  • Autres : Seed-OSS-36B Q4 512k ctx ; ERNIE-4.5-47B-A3B Q4 ; Yi-34B Q6 ; Baichuan-M2-32B ; Step-3.5-Flash

Frontière de l'Ouest

  • Méta-lama : Lama 3.3 70B Q4_K_M (~ 20 tok/s lama.cpp, ~ 179 tok/s batch-32 vLLM — Kentino mesuré) ; Lama 3.1 8B bf16 (~80-120 tok/s) ; Lama 4 Scout Q4
  • Mistral: Petit 3 24B bf16 ; Magistral Petit 24B raisonnement ; Devstral Petit 2 24B 256k ctx ; Mixtral 8x7B Q6
  • OpenAI : gpt-oss-20b MXFP4 (16 Go) ; gpt-oss-120b MXFP4 (80 Go compact)
  • Autres : Gemma 3 27B Q6 128k ; Phi-4 14Bbf16 ; Némotron-Super 49B Q4 ; Granit 4.0 H-Petit ; OLMo232B; RekaFlash 3 ; Commandement R 35B

Modèles Vision-Langage

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B, Qwen3-Omni-30B-A3B ; InternVL3 jusqu'à 78B Q4 ; StagiaireVL3.5-38B ; DeepSeek-VL2 ; Lama 3.2 11B Vision ; Pixtral 12B ; Molmo 7B ; Gemma 3 12B/27B ; PaliGemma 2 ; MiniCPM-V 2.6 / MiniCPM-o 2.6.

Génération d'images

FLUX.1 [dev]/[schnell] fp8 (~15-25 s par 1024x1024); FLUX.1 Kontext; FLUX Tools; SD 3.5 Large; SDXL; HunyuanImage-2.1 bf16 (~34 Go) 2K natif; Kolors 2.0; AuraFlow; OmniGen v1.

Génération vidéo

Wan 2.2 T2V-A14B/I2V-A14B MoE (~ 54 Go bf16) ; Wan 2.2 TI2V-5B 720p à 24 ips ; HunyuanVidéo 13B T4-T5 ; HunyuanVidéo 1.5 ; CogVideoX-5B ; Ouvert-Sora 2.0 ; Mochi-1 ; LTX-Vidéo ; SVD/SV3D/SV4D ; NVIDIA Cosmos Prédire 2.

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 turbo (~50 fois le temps réel) ; Parakeet-TDT 1.1B ; Canary 1B ; Qwen3-ASR ; SenseVoice
  • STT : CosyVoice 3.0 ; Kokoro 82M ; Stable Audio Open ; Step-Audio-EditX
  • Temps réél: Kyutai Moshi (200 ms full-duplex) ; Step-Audio 2 mini ; Qwen2.5-Omni-7B
  • Musique: MusicGen ; AudioGen ; Suno Bark ; SeamlessM4T v2

Service multi-modèles

  • 4 à 8 utilisateurs simultanés sur 32 à 72 milliards de LLM via vLLM / SGLang parallélisme tensoriel
  • Configuration mixte : Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi avec VRAM partitionnée
  • Réglage fin LoRA/QLoRA 32-72B ; paramètres complets 7-14B
  • RAG avec Command R+ ou Qwen3 + BGE-M3/E5/Jina

Charges de travail cibles

  • Passerelle d'inférence pour une organisation de 50 à 200 postes (70B Q4-Q6, 4 à 8 sessions simultanées)
  • Pipeline de diffusion/vidéo par lots (SDXL + FLUX.1 + Wan 2.2 pendant la nuit)
  • Laboratoire de mise au point LoRA/QLoRA pour les adaptations du domaine 7-34B
  • Assistant de documents RAG (Qwen3-VL + BGE-M3 + Commande R, 32k ctx)
  • Système mixte mono-boîtier : chat + image + reconnaissance vocale + voix en temps réel sur VRAM partitionnée

Performance mesurée

Test de Kentino | 10/04/2026 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T

référence Résultat
Calcul soutenu (fp16) 647.7 TFLOPS
vLLM Lama 3.3 70B AWQ INT4 (simple) 8.0 tok/s
vLLM Lama 3.3 70B AWQ INT4 (lot-32) 179.3 tok/s en moyenne
lama.cpp Lama 3.3 70B Q4_K_M (simple) 20.3 tok/s
Évaluation rapide 1 568 tok/s
Bande passante de la mémoire GPU 920 Go/s par carte
Lecture/écriture NVMe 4 589 / 4 213 Mo/s
Pic thermique (surchauffe du GPU et du CPU) 73 °C, baisse de 0.6 %

vLLM utilisait le noyau awq — 2 à 3 fois possible avec awq_marlin.

Pas idéal pour

  • Frontier 100B+ dense à bf16 (DeepSeek V3/R1, GLM-4.5+, Kimi-K2, Mistral Large 3 — nécessite 256+ Go de VRAM)
  • Formation à partir de zéro (la RTX 4090 grand public ne possède pas de NVLink)

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • Augmentez la RAM à 512 Go (ajoutez 4 barrettes DDR4 de 64 Go — quatre emplacements DIMM disponibles).
  • Disque secondaire NVMe de 4 To pour la préparation des ensembles de données/modèles
  • Armoire ouverte 24U pour déploiements multi-serveurs
Pokaż kompletne danois