Construire Wiki

Construire Wiki

Une série de référence sur la construction, la mise en réseau, l'alimentation et l'exploitation des systèmes de calcul d'IA — pour les acheteurs et les intégrateurs qui dimensionnent leur prochain boîtier à 4 GPU, leur serveur à 8 GPU ou leur laboratoire de robotique.

Chaque article est basé sur de véritables montages Kentino. Pas de superflu. Des opinions tranchées lorsque les contraintes techniques l'exigent. Une honnêteté sans faille quant aux limites.

20articles en direct 9pistes thématiques 2Nouveautés par semaine · Mar + Jeu

Serveur d'IA fondamental Série W

Si vous configurez un PC multi-GPU, lisez ceci en premier : mémoire, PCIe, alimentation et sélection des GPU.

W01RAM et VRAM : leur relation dans un serveur d’IAUn PC à 4 GPU avec 192 Go de VRAM et 32 ​​Go de RAM est inutilisable. Le ratio optimal dépend des applications que vous utilisez.
W02Lignes PCIe et topologie dans un serveur d'IA multi-GPUL'affirmation selon laquelle la différence entre PCIe x8 et x16 n'a pas d'importance pour l'inférence est globalement correcte, et ceux qui la répètent ignorent généralement pourquoi.
W03Rehausseurs pour GPU : quand en avez-vous besoin et quelles sont les pannes ?Là où l'intégrité du signal disparaît discrètement, les liaisons se réentraînent silencieusement vers la Gen3 et les tests réussis commencent à perdre un GPU par jour.
W04Dimensionnement des alimentations et configurations à double alimentationLes calculs, la réalité du format et le cadre honnête de l'alimentation électrique des systèmes à 4 et 8 GPU.
W07Sélection de GPU : 5090, 4090, RTX Pro 6000, L40, L4Une comparaison honnête et directe avec des chiffres de performance réels, les compromis à faire et un processus de décision que nous utilisons réellement lors des appels clients.

Networking série N

La réalité de NVLink, les topologies de cluster (feuille-épine, arbre gras, libellule, sans commutateur), l'analyse de la latence, le routage et la configuration RDMA en pratique.

N03NVLink et NVSwitch : quand cela compteLe service marketing de DGX vante une bande passante NVLink de plusieurs téraoctets par seconde. Pour la plupart des charges de travail Kentino, vous n'en avez pas besoin.
N04Topologies commutées : arbre gras, feuille-épine, libellule, tesseractChaque schéma de cluster commence de la même manière. Le véritable choix porte sur la topologie, le niveau de sursouscription et la vitesse par port.
N05Topologies sans commutateur : Mesh, Ring, Direct ConnectUn commutateur 400 GbE à 32 ports coûtera entre 40 000 € et 80 000 € mi-2026. Pour 2 à 4 nœuds, vous n'en avez pas besoin.
N06Analyse de la latence : où va chaque microsecondeOn dimensionne les réseaux à l'aide de graphiques de bande passante. Or, leur outil de test allreduce affiche un résultat bien loin du débit de ligne.
N07Routage : ECMP, routage adaptatif, DCQCNQue se passe-t-il au-dessus des câbles, des cartes réseau et des commutateurs : comment les paquets trouvent leur chemin et qu’est-ce qui empêche le réseau de s’effondrer sous la réduction globale ?
N08Mise en œuvre pratique du RDMA + Conception de liaison montante en clusterPratique : installer les pilotes, vérifier le chemin d’accès, activer GPUDirect, valider NCCL, puis passer à l’étape suivante et concevoir la liaison montante de l’ensemble du cluster.

regroupement Série K

Quand un seul nœud ne suffit pas. Décision entre nœud unique et nœuds multiples, entraînement distribué, clusters d'inférence et stockage partagé.

K01Architecture mono-nœud multi-GPU vs architecture multi-nœuds : quand faut-il passer à l’échelle ?L'erreur la plus coûteuse consiste à répartir un budget GPU entre deux nœuds alors qu'un seul nœud plus puissant aurait suffi.
K02Formation distribuée en 2026 : DDP, FSDP2, DeepSpeed, MegatronQuatre piles logicielles open source, cinq axes de parallélisme, et laquelle choisir pour quelle tâche.
K03Clusters d'inférence : vLLM Tensor Parallel, Pipeline ParallelUn modèle de 70 octets ne tient pas sur un seul GPU avec une capacité de cache KV utile. Un modèle de 405 octets ne tient pas sur un seul nœud. Le coût du modèle dépend de la façon dont il est découpé.
K04Stockage en cluster : NFS, BeeGFS, Lustre, stockage d’objetsLe stockage partagé est la partie d'un cluster distribué à laquelle personne ne pense jusqu'à ce que les GPU atteignent 40 % d'utilisation.

Intégration : je série

En résumé, l'architecture robot-serveur qui ancre toute la série dans du matériel réel.

I01Architecture d'IA en périphérie : Robot ↔ Serveur d'inférence sur siteL'article de référence. Un humanoïde que vous avez acheté ne représente que la moitié du système ; voici l'autre moitié et comment les deux moitiés s'assemblent.

Robotique Série R · blog

Un humanoïde moderne est le fruit de la combinaison de six ou sept disciplines d'ingénierie. Le processus d'achat, la nécessité pour les robots d'avoir une puissance de calcul dédiée en périphérie et la pile de modélisation du monde de pointe pilotée par VLM.

R07Achat d'un robot : délais de livraison, douanes, assistanceL'achat de matériel robotique dans l'UE est bien différent de l'achat d'un poste de travail. Voici à quoi ressemblent concrètement les délais de livraison, les formalités douanières et le service après-vente.
R08Pourquoi les robots ont besoin de ressources de calcul dédiées en périphérieL'argument de la latence. Pourquoi le fait de placer votre modèle derrière une API cloud compromet le cas d'utilisation que le client souhaite réellement.
R09Étiquetage automatique avec des modèles du monde pilotés par VLMLa pile de perception de pointe — Qwen2.5-VL, Grounded-SAM 2, Florence-2, NVIDIA Cosmos — appliquée à la vérité terrain en robotique.

Études de cas Série C · blog

Des montages Kentino authentiques, avec des données chiffrées. Photos, nomenclatures, benchmarks et analyses post-mortem transparentes.

C01Étude de cas : Station de travail IA 4× RTX 4090EPYC 7542, 512 Go de mémoire DDR4 ECC, 4 cartes graphiques RTX 4090. Puissance de calcul mesurée : 651.6 TFLOPS. Débit continu de 179.3 tok/s sur vLLM. Température maximale : 73 °C. Données réelles d'une configuration commercialisée.

Nouveaux articles tous les mardis et jeudis

Ce wiki est une bibliothèque en constante expansion : de nouveaux articles sur la construction, la mise en réseau, le clustering, l’alimentation et la robotique sont publiés jusqu’en 2026, chacun étant basé sur une véritable configuration Kentino. Si vous souhaitez qu’un sujet spécifique soit traité en priorité, écrivez à : info@kentino.com.