Kentino Ltd
K-AI 192 Rome ArcProB70 À déterminer — 6× Intel Arc Pro B70 — EPYC Milan (Précommande)
K-AI 192 Rome ArcProB70 À déterminer — 6× Intel Arc Pro B70 — EPYC Milan (Précommande)
Jamais można załadować gotowości do odbioru
EN PRÉPARATION
Précommande — La carte mère Intel Arc Pro B70 devrait être livrée au troisième trimestre 2026.
K-AI 192 Rome ArcProB70 À déterminer
Serveur d'inférence Intel Xe2 avec 192 Go de VRAM
6x Arc Pro B70 | EPYC Milan | TOPS À DÉTERMINER
Configuration économique à haute capacité de mémoire vidéo, conçue pour la pile d'inférence open source d'Intel. Prix fixe selon la disponibilité chez Intel.
Serveur d'inférence rackable 4U équipé de six cartes Intel Arc Pro B70 Creator (32 Go Xe2-HPG « Battlemage » chacune, soit 192 Go au total), d'un processeur AMD EPYC 7643 Milan (48 cœurs/96 threads), de 384 Go de mémoire DDR4 ECC, d'un disque NVMe de 2 To pour le système et d'une alimentation ATX de 2 kW (une alimentation double est fortement recommandée). Conçu pour l'écosystème logiciel Intel : OpenVINO 2025+, IPEX-LLM, le backend SYCL llama.cpp et les forks vLLM-Intel. Les charges de travail utilisant uniquement CUDA ne sont pas compatibles avec cette configuration.
Hardware
| Composant | Détails |
|---|---|
| GPU | 6x Intel Arc Pro B70 Creator 32 Go (Xe2-HPG "Battlemage", 250 W, PCIe 5.0 x16, double emplacement) |
| Pool de VRAM | 192 Go agrégés sur 6 cartes (pas de structure inter-cartes — trafic pair à pair via PCIe) |
| Processeur | AMD EPYC 7643 Milan (48 cœurs/96 threads, 225 W, 128 lignes PCIe 4.0) |
| Carte mère | ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI) |
| RAM système | 384 Go DDR4-2666 ECC RDIMM (6 x 64 Go) |
| Démarrage / stockage | SSD NVMe M.2 de 2 To (PCIe 4.0 x4) |
| Source d'alimentation | 1 alimentation ATX de 2 kW (mise à niveau vers une alimentation double synchronisée de 2 kW fortement recommandée) |
| Châssis | Montage en rack 4U (configuration à 6 emplacements) |
| Refroidissement | Refroidisseur tour SP3 (Arctic Freezer 4U-M) + flux d'air dirigé de l'avant vers l'arrière (ventilateurs industriels) |
| Réseau | Double interface Ethernet 10 GbE intégrée (Intel X550) |
Enveloppe de puissance
- Consommation du GPU : 6 x 250 W = 1 500 W (TDP publié par Intel)
- Puissance totale du système à pleine charge : ~1 825 W
- Puissance totale de l'alimentation : 2 000 W (simple) — marge de manœuvre de seulement 8.75 %.
- Deux générateurs synchronisés de 2 kW fortement recommandés — restaurent environ 45 % de la marge dynamique.
Topologie des voies
La ROMED8-2T offre 7 lignes PCIe 4.0 x16. Six emplacements sont occupés ; un est libre pour l'ajout d'une carte réseau. L'Arc Pro B70 est native PCIe Gen5 ; la ROMED8-2T fonctionne en Gen4 — l'impact sur la bande passante est négligeable pour l'inférence à 32 Go par carte. Pas de commutateur PCIe. Pas d'équivalent Xe-Link.
Ce que vous pouvez courir
Toutes les affirmations de compatibilité concernent les chemins d'accès à la pile logicielle Intel (OpenVINO, IPEX-LLM, llama.cpp SYCL, vLLM-Intel). Les charges de travail utilisant uniquement CUDA ne sont pas prises en charge par ce matériel. Toutes les figures proviennent de sources externes publiées et seront vérifiées indépendamment lors de la livraison des cartes.
Masters en droit (LLM) — texte / raisonnement / programmation
frontière chinoise
- Qwen3 / Qwen3.5 (Alibaba) : Qwen3-235B-A22B Q4 (~132 Go) avec une marge de contexte importante ; Qwen3-Coder-480B-A35B Q2 (~160 Go) ; Qwen3.5-397B-A17B Q3 (~170 Go)
- GLM / Z.ai : GLM-4.5 / 4.6 / 4.7 Q4 (~177 Go) — compatible avec un KV modéré
- Tencent Hunyuan : Hunyuan-Large Q3 (~ 160 Go) ; Hunyuan-A13B fp8 (~ 80 Go) si le chemin Xe2 fp8 est exposé dans le pilote
- Autres : Baidu ERNIE-4.5-424B Q3 (~180 Go) ; MiniMax-M1 Q3 (~180 Go) ; DeepSeek-R2 32B (6 flux simultanés)
Frontière de l'Ouest
- Méta-lama : Llama 3.3 70B Q6-Q8 avec un KV généreux ; Llama 4 Scout 109B/17B Q4 (~63 Go) confortable
- Mistral: Mistral Petit 3 / Magistral Petit / Devstral Petit 2 (24B) à bf16 ; Pixtral Grand Q4-Q6
- OpenAI (poids ouverts) : gpt-oss-120b MXFP4 natif (~80 Go) — si le déquant MXFP4 est disponible dans la pile Intel
- NVIDIA Nemotron : Llama-3.1-Nemotron Ultra 253B Q4 (~ 120 Go)
- Autres : Gemma 3 27B bf16 multimodale ; Phi-4 / Raisonnement Phi-4 14B ; Cohere Command R+ 104B Q4
Modèles Vision-Langage
Qwen3-VL-8B / 32B ; Qwen3-VL-30B-A3B MoE ; InternVL3 jusqu'à 78B ; InternVL3.5-38B ; Llama 3.2 90B Vision Q4 ; Pixtral 12B ; Molmo 72B Q4 ; Gemma 3 12B/27B multimodal ; MiniCPM-V 2.6 / MiniCPM-o 2.6. OpenVINO d'Intel offre une prise en charge robuste des tours de vision ; VLM constitue un atout majeur dès le premier jour.
Génération d'images
FLUX.1 [dev] / [schnell] fp8 ou Q4 GGUF via lama.cpp SYCL ; SDXL / SD 3.5 Large via le runtime OpenVINO genAI ; HunyuanDiT ; HunyuanImage-2.1 bf16 (~ 34 Go) ; Couleurs 2.0 ; AuraFlow ; OmniGen ; PixArt-Sigma.
Génération vidéo
Wan 2.2 T2V-A14B / I2V-A14B MoE (~54 Go bf16) ; Wan 2.2 TI2V-5B ; HunyuanVideo 13B bf16 ; HunyuanVideo 1.5 ; CogVideoX-5B ; Open-Sora 2.0 ; LTX-Video ; Pyramid Flow ; Mochi-1 Q4. La vidéo est actuellement le point faible d'Intel ; attendez-vous à des performances fonctionnelles, mais pas optimales en termes de débit lors de la commercialisation.
Audio / Parole / Synthèse vocale
- RSA : Whisper v3 large / turbo via OpenVINO (prise en charge Intel Whisper de premier ordre) ; Parakeet-TDT ; Canary ; SenseVoice
- STT : CosyVoice 2/3 ; Kokoro 82M ; Stable Audio Open ; XTTS v2 ; StyleTTS 2 ; Step-Audio-EditX
- Temps réel / S2S : Kyutai Moshi ; MusicGen / AudioGen / Écorce ; TransparentM4T v2
Service multi-modèles / multi-locataires
- 6 flux simultanés d'un modèle Q4 de 32 Go (un par carte) — par exemple 6 agents Qwen3-32B Q4
- Flotte embarquée à grande échelle — 6 flux BGE-M3 / E5 / Nomic Embed parallèles (optimisés pour OpenVINO)
- Résidence mixte — 70B Q4 (tensor-parallèle sur 3 cartes) + FLUX.1 (1 carte) + Whisper-turbo (1 carte) + Moshi (1 carte)
Charges de travail cibles
- Projet pilote d'évaluation logicielle Intel pour les services LLM alternatifs à CUDA
- Système d'intégration/de réorganisation où les exigences de débit sont principalement déterminées par la VRAM par euro.
- Budget Q4 frontière-MoE inférence (Qwen3-235B, GLM-4.5/4.6/4.7) pour les petites équipes de développement internes
- Déploiement du modèle natif OpenVINO en parallèle des pipelines Intel Xeon / Arc Pro existants
- Système de traitement de documents VLM/OCR (puissance d'OpenVINO d'Intel)
Performance mesurée
Spécifications publiées par Intel | Sous réserve de vérification indépendante lors de l'expédition des cartes
| Spec | Valeur |
|---|---|
| VRAM par carte | 32 GB GDDR6 |
| classe de bande passante mémoire | ~450 Go/s par carte |
| Extensions de matrice Xe (XMX) | Accélération via OpenVINO / IPEX-LLM |
| chemin fp8 | Silicium Xe2 — vérifier l'exposition du pilote au moment de l'expédition |
Kentino n'a fourni aucune donnée mesurée. Les spécifications publiées par Intel sont sujettes à vérification indépendante. Kentino publiera ses propres mesures de débit (tok/s, QPS, bande passante) une fois que le premier appareil aura passé avec succès les tests de rodage.
Pas idéal pour
- Charges de travail natives CUDA — pas de CUDA sur Intel, prévoyez des difficultés de migration
- Les déploiements critiques en production (SLA) sont suspendus jusqu'à la stabilisation de l'approvisionnement et des outils Intel Arc Pro.
- Frontier 600B+ MoE à partir du 4e trimestre (nécessite 6 cartes RTX Pro 6000 / pool de 576 Go)
- Charges de travail d'entraînement — Arc Pro privilégie l'inférence, et la maturité du framework pour l'entraînement distribué est limitée.
- Pour les clients qui exigent des données de référence précises avant l'achat : ce produit est en précommande.
Garantie et délai de livraison
Garantie standard Kentino (2 ans pièces, 1 an main-d'œuvre) ; les conditions de distribution d'Intel prévalent en cas de conditions plus strictes. L'assemblage comprend la configuration du BIOS, l'installation des pilotes, les tests de rodage et la vérification fonctionnelle. Réservez votre créneau de livraison prioritaire via le formulaire de contact Kentino. Garantie de prix de 30 jours à la commande.
Modules complémentaires recommandés
- Mise à niveau vers une alimentation double synchronisée de 2 kW (la marge de manœuvre avec une seule alimentation est faible à 1 825 W — fortement recommandée)
- Mise à niveau de la RAM à 512 Go DDR4 (2 x 64 Go — deux emplacements libres)
- Disque secondaire NVMe de 4 To pour la bibliothèque de modèles
Share
