Passer aux informations sur le produit
1 of 7

Kentino Ltd

K-AI 48 Rome L4 484TOPS — Serveur d'IA de périphérie passif NVIDIA L4 (2x)

K-AI 48 Rome L4 484TOPS — Serveur d'IA de périphérie passif NVIDIA L4 (2x)

Prix ​​habituel €11.374,00 EUR
Prix ​​habituel Prix ​​de vente €11.374,00 EUR
Soldes Épuisé
Taxes incluses. Hors transport Livraison calculés à la caisse

K-AI 48 Rome L4 484TOPS

Serveur Edge passif silencieux 2x L4
48 Go de VRAM ECC | EPYC Milan | 484 HAUTS INT8

484
TOPS INT8
48 GB
VRAM ECC
144 W
GPU total
24/7
datacenter

Boîtier d'inférence passive L4 2x silencieux — garantie de niveau centre de données, 72 W par carte, 48 Go de VRAM ECC pour un déploiement en périphérie toujours actif.

Serveur d'inférence périphérique à 2 GPU, basé sur des cartes NVIDIA L4 passives : l'option silencieuse de classe datacenter de la gamme Kentino. 48 Go de VRAM ECC, consommation GPU totale de 144 W, format simple emplacement et ventilation assurée par le châssis. Idéal pour les succursales, les studios de diffusion, la transcription continue et tout déploiement où le profil acoustique et la garantie datacenter priment sur le débit brut des tenseurs.

Hardware

Composant Détails
GPU 2x NVIDIA L4 24 Go GDDR6 passif (72 W, PCIe 4.0 x16, Ada Lovelace, ECC)
Pool de VRAM 48 Go ECC
Processeur AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0)
Carte mère ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
RAM système 128 Go DDR4-2666 ECC RDIMM (2 x 64 Go)
Démarrage / stockage SSD NVMe M.1 de 2 To (PCIe 4.0 x4)
Source d'alimentation Alimentation ATX simple de 2 kW
Châssis Rehausseurs passifs Gen4 x16 pour montage en rack 4U
Refroidissement Refroidisseur tour SP3, 3 entrées d'air avant de 120 mm + 1 sortie d'air arrière de 120 mm (PWM à bas régime)
Réseau Double interface 10 GbE intégrée (Intel X550) + IPMI

Enveloppe de puissance

  • Consommation du GPU : 2 x 72 W = 144 W
  • Puissance totale du système à pleine charge : ~469 W
  • Puissance totale de l'alimentation : 2 000 W — marge de 76.55 %
  • Entraîne les ventilateurs à bas régime (~35 dBA au repos, <45 dBA en fonctionnement continu)

Topologie des voies

Les deux GPU disposent d'une interface PCIe Gen4 x16. Le cache L4 est natif Gen4 x16 ; le ROMED8-2T distribue 2 ports x16 directement depuis le processeur. Aucun commutateur, pas de NVLink. La température du GPU se maintient entre 55 et 65 °C ; les cartes passives dépendent entièrement de la ventilation du boîtier.

Ce que vous pouvez courir

Avec 48 Go de VRAM ECC répartis sur 2 cartes L4 passives, ce serveur gère l'inférence LLM permanente, les pipelines ASR + TTS 24h/24 et 7j/7, le traitement de documents VLM et les déploiements en périphérie où le silence et la garantie du centre de données sont importants.

Masters en droit (LLM) — texte / raisonnement / programmation

frontière chinoise

  • Qwen3-32B Q6 dense avec 32k ctx (~15-20 tok/s flux unique sur L4, référence publiée)
  • Qwen3-30B-A3B / Qwen3-Coder-30B-A3B T4-T6 (MoE, 256k ctx)
  • QwQ-32B Q6; DeepSeek-R2 32B MoE clairsemé Q4-Q6 (~18-24 tok/s flux unique à Q4 sur L4, référence publiée)
  • Hunyuan-A13B Q6 ou fp8 (~48 Go) — 80 octets/13 octets MoE, 256 kbps
  • Graine-OSS-36B T4-T6 — 512k ctx natif
  • ERNIE-4.5-47B-A3B Q4-Q6 (~28-42 Go)

Frontière de l'Ouest

  • Lama 3.3 70B Q4_K_M (~43 Go) parallélisme tensoriel bidirectionnel (~8-12 tok/s flux unique sur 2x L4, référence publiée)
  • Mistral Petit 3 / Magistral / Devstral Petit 2 (24B) bf16
  • Gemma 3 27B bf16 multimodal
  • Phi-4 14B / Raisonnement Phi-4 bf16
  • Nemotron-Super 49B Q4 (~28 Go)
  • OLMo 2 32B / OLMo 3.1-32B-Think — recherche sur le raisonnement pleinement ouvert

Vision-Langage

Qwen3-VL-8B / 32B Q4-Q6; InternVL3.5-38B Q4; Pixtral 12B bf16 (24 Go); Llama 3.2 11B Vision bf16; Gemma 3 12B / 27B multimodal; MiniCPM-V 2.6 / MiniCPM-o 2.6; Aya Vision 8B / 32B pour VLM 23 langues.

Génération d'images

L4 est optimisé pour l'inférence — utilisable pour les pipelines d'images en régime permanent, pas pour la génération par lots : FLUX.1 [dev] fp8 / Q4 — image unique en 8-12 s ; SD 3.5 Large fp8 / SDXL 1.0 / SD 3.5 Medium ; HunyuanImage-2.1 NF4 (~14 Go) ; Kolors 2.0 fp8.

Génération vidéo

Non recommandé pour les nouveaux projets vidéo sur L4 ; privilégiez une configuration 4090/5090. Pour les pipelines T2V légers : Wan 2.2 TI2V-5B à bf16 — 5 s 720p en 6 à 10 minutes environ ; HunyuanVideo 1.5 (8.3B) : chemin d’optimisation Wan2GP.

Audio / Parole / Synthèse vocale

Le véritable atout du L4 : la reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS) 24 h/24 et 7 j/7, ainsi que les piles vocales en temps réel.

  • RSA : Whisper v3 large / turbo (environ 30 fois le temps réel sur L4, référence publiée) ; NVIDIA Parakeet-TDT 1.1B ; Canary 1B
  • STT : CosyVoice 2.0 / Fun-CosyVoice 3.0 ; Kokoro 82M ; Stable Audio Open
  • Temps réel / S2S : Kyutai Moshi (7B, latence de 200 ms, duplex intégral) ; Step-Audio 2 mini / R1
  • Traduction: Meta SeamlessM4T v2 (~100 langues)

Multi-modèles / multi-locataires

  • Whisper v3 + Kokoro + Moshi + Qwen3-14B Q6, tous installés sur la carte 1 (environ 18-20 Go) ; la carte 2 est réservée à un second utilisateur ou à un VLM.
  • 8 à 16 sessions ASR simultanées sur un seul L4 en temps réel Whisper-turbo
  • Point d'accès RAG : Qwen3-14B / Llama 3.1 8B (~48-72 tok/s en flux unique sur L4, référence publiée) + plongements BGE-M3 + réordonnanceur

Charges de travail cibles

  • boîte d'interférence silencieuse pour succursale ou installation de diffusion
  • Pipeline de reconnaissance vocale automatique et de traduction toujours actif (centres d'appels, transcription de cours, sous-titrage de médias)
  • Point de terminaison Edge RAG via des documents d'entreprise avec chemin de garantie du centre de données
  • Assistant multimodal 24h/24 et 7j/7 (Qwen3-VL-8B + MiniCPM-o 2.6) pour un petit bureau
  • Serveur de développement pour les déploiements de niveau datacenter — même puce L4 que la périphérie hyperscale

Références de performance publiées

Référence publiée | Matériel équivalent à 2x NVIDIA L4

référence Résultat
Llama 3.1 8B Q4_K_M décodage lama.cpp ~30-40 tok/s flux unique
Décodage Qwen3-14B Q6 vLLM ~20-28 tok/s
Facteur temps réel important de Whisper v3 ~15-20x par L4
Perruche-TDT 1.1B Anglais ASR ~40 à 60 fois le temps réel
Voix Moshi 7B en duplex intégral Latence de 200 ms, tient sur un seul L4

Publié, non mesuré sur du matériel Kentino.

Pas idéal pour

  • 70 octets de densité à Q6+ (même un pool de 48 Go est limité — utilisez 4 x 4090 ou 2 x 5090)
  • Traitement par lots de génération d'images/vidéos à grande échelle (le débit des tenseurs L4 est optimisé pour l'inférence)
  • LoRA / optimisation des flux de travail — utilisez plutôt les versions 4090/5090

Garantie et délai de livraison

2 ans
garantie des pièces
1 an
garantie de main-d'œuvre
10 à 28 jours
délai d'exécution : prototypage rapide

La carte L4 bénéficie de la garantie NVIDIA pour centres de données, un avantage considérable par rapport aux cartes grand public pour un déploiement SLA 24h/24 et 7j/7. L'assemblage comprend la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle.

Modules complémentaires recommandés

  • Passez à la K-AI 96 Rome L4 968TOPS (4x L4, pool de 96 Go) pour un débit doublé
  • Mettez à niveau votre disque de démarrage vers un disque NVMe de 2 To.
  • Augmentez la RAM à 256 Go (4 x 64 Go) pour un service simultané multi-modèles.
  • PDU rack + UPS en ligne de 2 kVA pour déploiement en succursale
Voir tous les détails