Passer aux informations sur le produit
1 of 14

Kentino Ltd

K-AI 32 Rome 5090 1676TOPS — Station de travail IA 1x RTX 5090

K-AI 32 Rome 5090 1676TOPS — Station de travail IA 1x RTX 5090

Prix ​​habituel €8.092,00 EUR
Prix ​​habituel Prix ​​de vente €8.092,00 EUR
Soldes Épuisé
Taxes incluses. Hors transport Livraison calculés à la caisse

K-AI 32 Rome 5090 1676TOPS

Station de travail Blackwell à GPU unique
1x RTX 5090 | EPYC Milan | 1 676 TOPS INT8

1:676
TOPS INT8
32 GB
VRAM GDDR7
fp8
tenseur natif
rack
solutions

Un seul GPU Blackwell, 32 Go GDDR7, fp8 natif — la station de travail IA mono-carte la plus performante que Kentino conçoit.

Serveur d'IA mono-GPU de classe station de travail sur la plateforme ROMED8-2T / EPYC Milan. Une RTX 5090 offre 32 Go de VRAM GDDR7 avec calculs tensoriels fp8 natifs : la solution idéale pour un poste de développement, un poste d'inférence pour une petite équipe ou une station de travail de génération d'images/vidéos où un GPU puissant surpasse deux moins performants. Format rack 4U, mais installation facile sous un bureau pour un déploiement discret.

Hardware

Composant Détails
GPU 1x NVIDIA GeForce RTX 5090 32 Go GDDR7 (575 W, PCIe 5.0 x16, Blackwell)
Pool de VRAM 32 GB
Processeur AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
RAM système 128 Go DDR4-2666 ECC RDIMM (2 x 64 Go)
Démarrage / stockage SSD NVMe M.1 de 2 To (PCIe 4.0 x4)
Source d'alimentation Alimentation ATX simple de 2 kW
Châssis Rallonge passive Gen4 x16 pour montage en rack 4U
Refroidissement Refroidisseur tour SP3 (Arctic Freezer classe 4U-M), 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm
Réseau Double interface 10 GbE intégrée (Intel X550) + IPMI

Enveloppe de puissance

  • Consommation du GPU : 1 x 575 W = 575 W
  • Puissance totale du système à pleine charge : ~900 W
  • Puissance totale de l'alimentation : 2 000 W (une seule alimentation ATX de 2 kW) — marge de 55 %
  • Marge transitoire généreuse, fonctionnement silencieux à faible charge

Topologie des voies

PCIe Gen4 x16 au niveau du GPU (ROMED8-2T est Gen4 ; la 5090 est une puce Gen5 fonctionnant en Gen4 sans perte de bande passante pour l'inférence). 16 lignes directes depuis le processeur. Pas de commutateur PCIe. Pas de NVLink sur la GeForce 5090.

Ce que vous pouvez courir

Avec 32 Go de VRAM GDDR7 et des calculs tensoriels natifs fp8, cette station de travail gère les LLM à poids ouvert jusqu'à 32 milliards de densité, la génération d'images avec FLUX.1, la génération vidéo, l'IA vocale et les piles multi-modèles à développeur unique.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3-32B dense Q6_K — Contexte de 32k, raisonnement général phare (~40-55 tok/s en flux unique sur Blackwell fp8, référence publiée)
  • Qwen3-30B-A3B MoE à Q4_K_M avec une grande marge de KV (Qwen3-Coder-30B-A3B agentic, 256k ctx)
  • QwQ-32B Q6 — Aperçu du raisonnement
  • DeepSeek-R2 32B MoE clairsemé au T4-T6 — raisonnement mono-GPU qui obtient un score de 92.7 % AIME-2025 (~45-60 tok/s flux unique sur Blackwell fp8, référence publiée)
  • Qwen3.5-27B dense Q6 (sortie prévue en février 2026)
  • Hunyuan-A13B au Q4_K_M (~28-30 Go) — 80B/13B MoE, 256k ctx, raisonnement en mode double
  • Graine-OSS-36B Q4_K_M — Contexte natif de 512 ko pour l'analyse de documents longs

Frontière de l'Ouest

  • Lama 3.3 70B à Q2_K (~27 Go serrés) ou Q3_K (~34 Go avec débordement de RAM) — utilisable pour les discussions générales
  • Mistral Petit 3 / Magistral Petit / Devstral Petit 2 (24B dense) à Q6-Q8 ou bf16
  • Gemma 3 27B multimodal au Q6 avec 128k contexte
  • Phi-4 14B / Raisonnement Phi-4 bf16
  • Reka Flash 3 (21B Apache 2.0) à bf16
  • gpt-oss-20b MXFP4 natif (~16 Go — compatible avec un KV généreux)

Vision-Langage

Qwen3-VL-8B / -32B à Q4-Q6 ; Qwen3-VL-30B-A3B MoE ; InternVL3.5-8B / -38B Q4 ; MiniCPM-V 2.6 / MiniCPM-o 2.6 (8B) ; Llama 3.2 11B Vision bf16 ; Pixtral 12B bf16 (24 GB — serré, utiliser Q8) ; Gemma 3 12B / 27B multimodal ; PaliGemma 2 (3/10B) ; Phi-4-multimodal 5.6B ; Aya Vision 8B.

Génération d'images

FLUX.1 [dev] / [schnell] fp8 (~12 Go) accélération native Blackwell (~8-12 secondes par image 1024x1024 à 20 étapes sur Blackwell, référence publiée) ; FLUX.1 Kontext [dev] — édition en contexte, cohérence des caractères ; SD 3.5 Large (18 Go fp16 / 11 Go fp8) ; SDXL 1.0 10-12 Go fp16 ; HunyuanImage-2.1 NF4 (~14 Go) ; Kolors 2.0 fp8 ; AuraFlow v0.3 / OmniGen v1 / PixArt-Sigma.

Génération vidéo

Wan 2.2 TI2V-5B à ~16 Go — 720p à 24 ips sur une seule 5090 ; Wan 2.1 T2V/I2V 14B au Q4-Q6 (~16 Go) ; HunyuanVideo 1.5 (8.3 Go) — 14 Go minimum ; CogVideoX-5B / 5B-I2V int8 (~12 Go) ; LTX-Video 2B classe temps réel 30 ips ; Mochi-1 Q4 (~17-18 Go).

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 large / turbo (environ 50 fois le temps réel sur un seul GPU, référence publiée) ; NVIDIA Parakeet-TDT 1.1B ; Canary 1B
  • STT : CosyVoice 2.0 / Fun-CosyVoice 3.0 ; Kokoro 82M ; Stable Audio Open
  • Temps réel / S2S : Kyutai Moshi (7B) — voix duplex intégral en temps réel uniquement ; Step-Audio 2 mini / R1

Multi-modèles / multi-locataires

  • Configuration système résidente pour un développeur unique : Qwen3-32B Q6 (~20 Go) + FLUX.1 fp8 (~12 Go, en optimisant l’espace) sur la mémoire virtuelle, ou Qwen3-14B Q6 (~9 Go) + FLUX.1 + Whisper-turbo + Kokoro simultanément (~20-24 Go dédiés).
  • 2 à 4 utilisateurs simultanés sur des LLM de classe 14 à 32B via vLLM / SGLang
  • Réglage fin LoRA / QLoRA des modèles denses 7-14B

Charges de travail cibles

  • Poste de travail de développeur pour un ingénieur en IA exécutant une inférence mixte et une génération d'images
  • Point de terminaison d'agent de codage pour petites équipes (Qwen3-Coder-30B-A3B) avec 1 à 4 utilisateurs simultanés
  • Pipeline de contenu : FLUX.1 ou SD 3.5 Génération d’images par lots importants + vidéo courte WAN 2.2
  • Solution vocale ASR + TTS sur site (Whisper + Kokoro + Moshi) pour une succursale
  • Boîtier de recherche Prosumer LLM + VLM — test des cartes Qwen3, Llama 3.3, Gemma 3 et Phi-4 sur du matériel réel

Références de performance publiées

Référence publiée | Matériel comparable à une seule RTX 5090

référence Résultat
Llama 3.3 70B Q4_K_M décodage lama.cpp ~18-22 tok/s avec déchargement KV sur le processeur
Qwen3-32B Q6 vLLM flux unique ~45-55 tok/s décodage à fp8
FLUX.1 [dev] fp8 sur Blackwell Environ 1.7 à 2.0 s par image 1024x1024 à 20 étapes
Clip vidéo 720p Wan 2.2 TI2V-5B ~3-4 minutes à fp16

Points de référence publiés pour du matériel comparable équipé d'une seule carte graphique 5090. Les résultats des mesures Kentino seront publiés dès que gf-logic étendra ses tests aux configurations avec une seule carte 5090.

Pas idéal pour

  • 70 milliards de modèles denses au niveau du Q6+ (32 Go sont insuffisants — utilisez 2 x 5090 pour un pool de 64 Go approprié)
  • Service simultané multi-utilisateurs à grande échelle (partition parallèle unique du tenseur)
  • Frontier 100B+ MoE (GLM-4.5, Kimi K2, Mistral Large 3 — hors de portée sur une seule carte de crédit grand public)

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La prestation comprend l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • NVIDIA ConnectX-5 100 GbE MCX555A-ECAT
  • Mettez à niveau votre disque de démarrage vers un disque NVMe de 2 To ou de 4 To.
  • Augmentez la RAM à 256 Go (4 x 64 Go DDR4) pour un cache KV plus important / des piles simultanées multi-modèles.
  • Unité de distribution d'alimentation (PDU) rack (avec compteur C13/C19) et onduleur en ligne de 2 kVA
Voir tous les détails