Kentino Ltd
K-AI 64 Rome 5080 3600TOPS — Serveur d'IA économique avec 4 cartes graphiques RTX 5080
K-AI 64 Rome 5080 3600TOPS — Serveur d'IA économique avec 4 cartes graphiques RTX 5080
Impossible de charger la disponibilité du ramassage
K-AI 64 Rome 5080 3600TOPS
Serveur Blackwell économique à 4 GPU
4x RTX 5080 | EPYC Milan | 3 600 TOPS INT8
Serveur Blackwell 4 GPU économique de Kentino — pool de VRAM de 64 Go, 3 600 TOPS INT8 agrégés, CZK-par-TOPS le plus bas de la gamme.
Serveur d'inférence Blackwell à 4 GPU basé sur la RTX 5080 — 360 W par carte, silicium PCIe 5, 16 Go de GDDR7 chacune. Les quatre cartes offrent une capacité de VRAM partagée de 64 Go et une puissance de calcul agrégée de 3 600 TOPS INT8, au meilleur rapport CZK/TOPS proposé par Kentino. Solution d'entrée de gamme pour l'inférence Blackwell multi-GPU : idéale pour l'intégration de clusters, le déploiement à grande échelle de modèles de 7 à 13 milliards d'éléments, la génération par lots d'images et de vidéos, et le traitement parallèle de tenseurs Q4 jusqu'à 70 milliards d'éléments.
Hardware
| Composant | Détails |
|---|---|
| GPU | 4x NVIDIA GeForce RTX 5080 16 Go GDDR7 (360 W, PCIe 5.0 x16) |
| Pool de VRAM | 64 GB |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 256 Go DDR4-2666 ECC RDIMM (4 x 64 Go) |
| Démarrage / stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | Alimentation ATX simple de 2 kW |
| Châssis | Montage en rack 4U, 4 GPU, risers passifs Gen4 x16, flux d'air dirigé de l'avant vers l'arrière |
| Refroidissement | Refroidisseur tour SP3, 3 entrées d'air avant de 120 mm + 1 extraction arrière de 120 mm (ventilateurs industriels) |
| Réseau | Double interface 10 GbE intégrée (Intel X550) + IPMI |
Enveloppe de puissance
- Consommation du GPU : 4 x 360 W = 1 440 W
- Puissance totale du système à pleine charge : ~1 765 W
- Puissance totale de l'alimentation : 2 000 W (une seule alimentation ATX de 2 kW) — marge de 11.75 %
- Au-dessus du seuil de 10 %, mais plus serré que d'autres configurations à 4 GPU ; une mise à niveau vers une alimentation double est recommandée pour les charges de travail importantes.
Topologie des voies
ROMED8-2T distribue 4 ports Gen4 x16 à partir du processeur. La 5080 est une puce PCIe Gen5 fonctionnant en Gen4 x16 sans goulot d'étranglement de bande passante pour l'inférence. Pas de commutateur PCIe. Pas de NVLink — traitement parallèle des tenseurs via PCIe.
Ce que vous pouvez courir
Avec 64 Go de VRAM mutualisée sur 4 cartes Blackwell, ce serveur gère 70 milliards de données parallèles Q4, des clusters embarqués à grande échelle, des pipelines de traitement par lots d'images et de vidéos, et un service multi-locataire de 7 à 13 milliards de données pour 64 à 128 utilisateurs simultanés.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3-32B Q8 (dense à une qualité proche de fp16) ; Qwen3.5-27B bf16
- Qwen3-30B-A3B / Qwen3-Coder-30B-A3B bf16 (~60 Go rentre tout juste)
- Qwen3.5-122B-A10B Q4 (~70-75 Go — limite, débordement sur la RAM DDR4)
- Hunyuan-A13B fp8 (~80 Go natif — limite, privilégier Q6)
- Graine-OSS-36B bf16 (~72 Go serré)
- DeepSeek-R2 32B MoE clairsemé bf16 (~64 Go) (~45-60 tok/s flux unique au Q4 sur Blackwell, référence publiée)
- GLM-4.5-Air 106B/12B Q3_K (~55 Go) — marge KV réduite
- ERNIE-4.5-47B-A3B Q4 (~28 Go avec de la marge pour un deuxième modèle)
Frontière de l'Ouest
- Lama 3.3 70B Q4_K_M (~43 Go) — le point idéal pour ce pool (~30-36 tok/s en flux unique sur 4x 5080, référence publiée)
- Hermes 3 70B / Tulu 3 70B Q4 — Ouverture des produits dérivés Llama avec une transparence totale après la formation
- Mistral Petit 3 / Magistral / Devstral Petit 2 24B bf16
- Gemma 3 27B bf16 multimodal
- Phi-4 14B / Nemotron-Super 49B Q6-Q8
- gpt-oss-20b MXFP4 (16 Go — 4 instances sur 4 cartes pour locataires parallèles) ; gpt-oss-120b MXFP4 (80 Go — compact ; débordement gérable)
Vision-Langage
Qwen3-VL-32B/Qwen3-VL-30B-A3B/Qwen3-Omni-30B-A3B ; StagiaireVL3.5-38B Q6-Q8 ; Llama 3.2 90B Vision Q4 (~ 52 Go serrés) ; Pixtral 12B / Pixtral Grand 124B Q2-Q3 ; Gemma 3 27B multimodal bf16 ; PaliGemma 2 28B bf16 ; Molmo 72B Q4 (~ 45 Go); Aya Vision 32B bf16.
Génération d'images
FLUX.1 [dev] / [schnell] fp16 — traitement parallèle par lots de 4 (~10-15 secondes par image 1024x1024 à fp8 sur Blackwell, référence publiée) ; FLUX.1 Kontext [dev] — édition en contexte sur 4 locataires ; SD 3.5 Large (18 Go fp16) — 4 générateurs parallèles ; SDXL 1.0 + ControlNet + piles AnimateDiff x 4 ; HunyuanImage-2.1 bf16 par carte ; AuraFlow v0.3 / OmniGen v1 / Kolors 2.0 / PixArt-Sigma.
Génération vidéo
Wan 2.2 TI2V-5B bf16 sur une seule carte — 4 locataires parallèles ; Wan 2.1 14B T2V/I2V Q4-Q6 par carte ; HunyuanVideo 13B Q4 (~30 Go) tensor-parallèle 2 voies ; HunyuanVideo 1.5 (8.3B) bf16 par carte ; Open-Sora 2.0 (11B) Q8 par carte — 4 générations parallèles ; CogVideoX-5B int8 ; Mochi-1 Q4 par carte.
Audio / Parole / Synthèse vocale
Chaque carte prend en charge l'ensemble des logiciels audio occidentaux et chinois suivants : Whisper v3 + Parakeet + Canary + Moshi + Step-Audio 2/R1 + CosyVoice 3.0 + Kokoro + Stable Audio Open + MusicGen + AudioGen + SeamlessM4T v2. Avec quatre cartes, chacune peut héberger un module vocal dédié. Whisper v3 Turbo fonctionne à environ 50 fois le temps réel par carte (données de référence publiées).
Multi-modèles / multi-locataires
Cas d'utilisation cible : 16 Go par carte pour les charges de travail partitionnées.
- Cluster d'intégration : BGE-M3 / Nomic / Jina-embed / E5 / Cohere Embed v3 — 4 locataires à RPS élevé
- 7-13B servant à l'échelle : 16 à 32 utilisateurs simultanés par carte via vLLM/SGLang ; 64 à 128 utilisateurs simultanés au total
- Pipeline mixte : Carte 1 = Qwen3-14B + reranker ; Carte 2 = Whisper + Moshi ; Carte 3 = FLUX.1 ; Carte 4 = Wan 2.2 TI2V
- 4 voies tensor-parallèle pour 70B Q4 — Llama 3.3 70B AWQ INT4 sur 4 cartes, ~90-130 tok/s par lot agrégé (extrapolé à partir du banc d'essai gf-logic 4x4090)
Charges de travail cibles
- Plateforme de serveurs IA multi-GPU économique pour une startup ou un laboratoire en phase d'investissement.
- Infrastructure d'intégration + RAG à une échelle horizontale à 4 voies
- Ferme de traitement par lots pour la génération d'images/vidéos (Stable Diffusion / FLUX / Wan 2.2)
- 7-13B petit modèle de service à grande échelle — 4 locataires indépendants ou 64 à 128 utilisateurs simultanés regroupés
- Boîte de préparation au développement pour les flux de travail parallèles tensoriels du 4e trimestre de 70 milliards de dollars
Références de performance publiées
Kentino a mesuré (référence 4x4090) + estimations publiées pour le 5080
| référence | Résultat |
|---|---|
| Référence 4x4090 : fp16 soutenu | 647 TFLOPS |
| Référence 4x4090 : vLLM Llama 3.3 70B AWQ (batch-32) | 179.3 tok/s en moyenne |
| Référence 4x4090 : llama.cpp 70B Q4_K_M (simple) | Décodage à 20.3 tok/s |
| 5080 estimé : Llama 3.3 70B Q4 TP-4 simple | ~15-20 tok/s |
| 5080 estimation : FLUX.1 fp8 par carte | Environ 2.2 à 2.8 s par image 1024x1024 à 20 étapes |
Débit du tenseur 5080 ~1.35x 4090 par INT8 TOPS ; le décodage d'un flux unique est limité par la bande passante de la mémoire (GDDR7 ~960 Go/s contre 4090 ~1 008 Go/s — à peu près parité).
Pas idéal pour
- 70 milliards de Go de capacité dense au 6e trimestre et plus (limite de 16 Go par carte ; le pool de 64 Go est insuffisant pour le 6e trimestre)
- Les fleurons MoE à contexte long (Qwen3-235B, GLM-4.5) — VRAM insuffisante même au deuxième trimestre
- Travail à flux unique sensible à la latence sur des modèles très volumineux (la surcharge TP consomme des cartes de 16 Go)
Garantie et délai de livraison
La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.
Modules complémentaires recommandés
- Mise à niveau de l'alimentation vers deux alimentations ATX synchronisées de 2 kW — augmente la marge de manœuvre à 55 %
- NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
- Mettez à niveau votre disque de démarrage vers un disque NVMe de 4 To.
- Augmentez la RAM à 384 Go (6 x 64 Go) — meilleure marge de manœuvre pour plusieurs modèles simultanés
- Unité de distribution d'alimentation (PDU) rack (avec compteur C13/C19) et onduleur en ligne de 3 kVA
Share
