Passer aux informations sur le produit
1 of 7

Kentino Ltd

K-AI 144 Rome L4 1452TOPS — 6× NVIDIA L4 — EPYC Milan

K-AI 144 Rome L4 1452TOPS — 6× NVIDIA L4 — EPYC Milan

Prix ​​habituel €28.681,00 EUR
Prix ​​habituel Prix ​​de vente €28.681,00 EUR
Soldes Épuisé
Taxes incluses. Hors transport Livraison calculés à la caisse

K-AI 144 Rome L4 1452TOPS

Serveur d'inférence Silent Edge avec 144 Go de VRAM
6x NVIDIA L4 Passive | EPYC Milan | 1 452 TOPS INT8

1:452
INT8 TOPS
144 GB
Pool de VRAM
432 W
Enveloppe GPU
silencieux
GPU passifs

Six cartes de centre de données passives L4. Le serveur d'IA le plus silencieux de la gamme Kentino — idéal pour un déploiement en périphérie de bureau.

Serveur d'inférence mono-processeur 4U équipé de six cartes NVIDIA L4 passives (24 Go chacune, pool de 144 Go), d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 384 Go de mémoire DDR4 ECC, d'un disque NVMe de 2 To pour le démarrage et d'une alimentation ATX de 2 kW avec une marge de 62 %. Solution d'inférence performante pour les environnements embarqués, les serveurs LLM mutualisés de petite et moyenne taille et les déploiements à faible consommation par requête à proximité des bureaux.

Hardware

Composant Détails
GPU 6x NVIDIA L4 24 Go (Ada Lovelace, passif, 72 W, simple emplacement LP, PCIe Gen4 x8)
Pool de VRAM 144 Go au total sur 6 cartes
Processeur AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
RAM système 384 Go DDR4-2666 ECC RDIMM (6 x 64 Go)
Démarrage / stockage SSD NVMe M.2 de 2 To (PCIe 4.0 x4)
Source d'alimentation 1 alimentation ATX de 2 kW
Châssis Montage en rack 4U (configuration à 6 cartes)
Refroidissement Refroidisseur tour SP3 + flux d'air dirigé de l'avant vers l'arrière (ventilateurs industriels)
Réseau Double interface Ethernet 10 GbE intégrée (Intel X550)

Enveloppe de puissance

  • Consommation du GPU : 6 x 72 W = 432 W
  • Puissance totale du système à pleine charge : ~757 W
  • Puissance totale de l'alimentation : 2 000 W — marge de 62 %
  • Fonctionnement silencieux, marge thermique massive

Topologie des voies

Le cache L4 est natif PCIe Gen4 x8 : aucune perte de bande passante par rapport à l'hôte. La ROMED8-2T offre 7 emplacements x16 ; un emplacement reste libre pour l'ajout d'une carte réseau. Aucun commutateur PCIe n'est requis. NVLink non nécessaire.

Ce que vous pouvez courir

Avec une capacité agrégée de 144 Go répartie sur 6 cartes physiques, le point idéal est le service multi-modèles simultané : exécutez simultanément un modèle dense de 70 octets au Q4, un modèle MoE de 30 octets, un codeur de 14 octets, un VLM et un modèle d'intégration, tout en conservant une marge de sécurité KV.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3 / Qwen3.5 (Alibaba) : Qwen3-30B-A3B Q4-Q6 ; QwQ-32B Q6 ; Qwen3-32B dense Q6 ; Qwen3.5-122B-A10B Q4-Q5 (environ 75 Go confortables) ; Qwen3-235B-A22B Q3 (environ 112 Go) compact, format court
  • Recherche profonde : DeepSeek-R2 32B MoE clairsemé Q4-Q6 (compatible avec une seule carte, 6 flux simultanés, ~15-20 tok/s par flux) ; Seed-OSS-36B Q4-Q6 avec contexte natif de 512 000
  • GLM / Z.ai : GLM-4.5-Air Q4-Q5 (60-70 Go confortables) ; Hunyuan-A13B Q4-Q6 (~ 48 Go)
  • Baidu ERNIE-4.5-47B-A3B Q4 ; Étape 3.5 - Flash Q3-Q4 avec un débordement de RAM

Frontière de l'Ouest

  • Méta-lama : Llama 3.3 70B Q4-Q6 (43-58 Go) avec un KV généreux (~10-17 tok/s en flux unique sur 6 x L4 en parallèle avec le tenseur) ; Llama 4 Scout 109B/17B MoE Q4 (~63 Go) confortable
  • Mistral: Mistral Petit 3 / Magistral Petit 1.2 / Devstral Petit 2 (24B) à bf16 (~50-65 tok/s par carte L4) ; Mixtral 8x22B Q4
  • OpenAI (poids ouverts) : gpt-oss-120b MXFP4 natif (~80 Go) avec de l'espace libre ; gpt-oss-20b MXFP4
  • Google Gemma 3 : 27B bf16 ; Phi-4 14B bf16
  • NVIDIA Nemotron : Lama-3.1-Némotron Super 49B Q4-Q6 ; Pixtral 12B / Pixtral Grand Q4 (~ 72 Go)

Modèles Vision-Langage

Qwen3-VL-8B/32B, Qwen3-VL-30B-A3B MoE, InternVL3 jusqu'à 78B Q4 (~48 Go), InternVL3.5-38B, DeepSeek-VL2, Llama 3.2 11B Vision bf16, Llama 3.2 90B Vision Q4 (~52 Go), Molmo 72B Q4, Gemma 3 12B/27B multimodal, MiniCPM-V 2.6 / MiniCPM-o 2.6, GLM-4.6V-Flash.

Génération d'images

FLUX.1 [dev] / [schnell] fp8 (~20-35 s/image sur un seul L4 à fp8); FLUX.1 Kontext [dev]; FLUX Tools; SD 3.5 Large (18 Go fp16 / 11 Go fp8); SDXL 1.0; HunyuanImage-2.1 (~34 Go bf16); HunyuanDiT; Kolors 2.0; AuraFlow v0.3; OmniGen v1; PixArt-Sigma.

Génération vidéo

Wan 2.2 T2V-A14B / I2V-A14B MoE (serré à bf16 ~ 54 Go) ; Chemin rapide Wan 2.2 TI2V-5B ; HunyuanVideo 13B Q4-Q8 (~ 30 Go) ; HunyuanVidéo 1.5 (8.3B); CogVideoX-5B ; Open-Sora 2.0 Q8 (~ 16 Go) ; Mochi-1 Q4 (~ 18 Go) ; LTX-Vidéo ; Flux pyramidal ; SVD/SV3D/SV4D ; NVIDIA Cosmos.

Audio / Parole / Synthèse vocale

  • RSA : Whisper v3 large / turbo (~50x temps réel) ; Parakeet-TDT ; Canary 1B ; Qwen3-ASR ; SenseVoice
  • STT : CosyVoice 2/3 ; Kokoro 82M ; Stable Audio Open ; XTTS v2 ; StyleTTS 2 ; Step-Audio-EditX
  • Temps réel / S2S : Kyutai Moshi 7B ; Étape-Audio 2 mini/R1 ; Qwen2.5-Omni-7B
  • Musique / Effets sonores : MusicGen / AudioGen / Bark ; SeamlessM4T v2

Service multi-modèles / multi-locataires

  • 6 flux simultanés d'un modèle Q4 de 24 Go (un par carte) : par exemple, 6 agents Qwen3-14B Q4
  • Flotte mixte : Llama 3.3 70B Q4 (parallélisme tensoriel sur 2 cartes) + FLUX.1 (1 carte) + Whisper-turbo (1 carte) + Moshi (1 carte) + BGE-M3 embedder (1 carte)
  • Service d'intégration à haut débit QPS — 6 flux d'intégration parallèles de BGE-M3 / E5 / Nomic / Cohere Embed
  • Ferme de transcodage vidéo — 6 flux NVENC/NVDEC parallèles

Charges de travail cibles

  • API LLM SaaS mutualisée — prend en charge 20 à 40 utilisateurs simultanés sur un modèle 24/32 bits avec possibilité d'ajouter la prise en charge des images et de la reconnaissance automatique des applications (ASR).
  • Serveur RAG — module d'intégration côté requête + lecteur Q4 de 70 milliards de requêtes + système de reclassement, latence inférieure à la seconde, 50 requêtes par seconde
  • Pipeline vidéo-IA — transcodage en direct + sous-titrage + modération sur 6 flux parallèles
  • Dispositif d'IA en périphérie, à proximité du bureau — faible niveau sonore, aucune dépendance au centre de données
  • Banc d'essai R&D de milieu de gamme — itération rapide sur des réglages fins de 30 à 70 milliards de roupies, une carte par expérience

Performance mesurée

Références publiées | Fiche technique NVIDIA L4 + benchmarks de la communauté

référence Résultat
Performances maximales INT8 par carte (fiche technique NVIDIA) 242 TOPS
Total INT8 TOPS (6 cartes) 1 452 TOPS
Llama 3.1 8B Q4 sur L4 simple (communauté) ~35-45 tok/s flux unique
BGE-M3 intégrant QPS sur L4 (communauté) ~800 QPS avec une entrée de 512 jetons
Facteur temps réel Whisper v3 turbo ~1.5 à 2 fois le temps réel par carte

Les données de référence externes publiées n'ont pas été mesurées sur du matériel Kentino. Kentino publiera ses propres résultats après la première livraison au client.

Pas idéal pour

  • Frontier 200B+ MoE au T4+ avec un contexte à long terme — 4x L40 ou 8x RTX 4090 (pool de 192 Go, TP contigu) est la solution idéale
  • Charges de travail d'entraînement — Le niveau 4 manque de FP8 et de bande passante pour un entraînement efficace
  • Débit de pointe pour une seule charge de travail — la puissance de calcul par carte est modeste comparée à celle du L40 / RTX Pro 6000

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

Garantie constructeur NVIDIA de 3 ans sur le processeur L4 + garantie d'intégration Kentino. La configuration inclut l'assemblage, la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Le délai de livraison dépend de la disponibilité des composants et sera confirmé lors de la commande.

Modules complémentaires recommandés

  • Mise à niveau NVMe de 4 To pour la préparation de la bibliothèque de modèles
  • Baie ouverte 24U avec PDU géré
Voir tous les détails