Étiquetage automatique de l'environnement : Modèles du monde pilotés par VLM pour les robots

En 2023, la création d'un jeu de données crédible pour les robots domestiques nécessitait mille heures de travail d'annotateurs humains chargés de dessiner des cadres autour des tasses et des chaises. En 2026, ce même jeu de données est produit en une nuit par une pile de modèles vision-langage fonctionnant sur un seul serveur à 8 GPU. L'humain est toujours présent, mais uniquement en tant que relecteur d'un échantillon, et non plus comme étiqueteur principal. Cet article traite de cette évolution : ce que signifie concrètement l'« étiquetage automatique » pour un robot aujourd'hui, à quoi ressemble le processus, ses points faibles et pourquoi la puissance de calcul est un facteur déterminant pour la faisabilité du projet.

Ceci fait partie de la section Robotique du wiki de Kentino. Il y a des références croisées R08 (argument de latence pour le calcul en périphérie dédié) et I01 (Architecture d'IA en périphérie avec inférence sur site). Une prochaine conférence I05 détaillera la configuration de référence dimensionnée précisément pour cette charge de travail.

Que signifie l'étiquetage automatique en robotique ?

Le système classique de vision par ordinateur partait du principe que les étiquettes étaient rares et coûteuses. Délimiter un objet prenait dix secondes et quelques centimes à un humain. Créer un masque de segmentation précis au pixel près coûtait une minute et un dollar. Réaliser un masque image par image sur un clip vidéo de trente secondes coûtait le prix d'une petite voiture.

Les jeux de données robotiques sont problématiques pour ce modèle. Un seul quadrupède effectuant une cartographie pendant trente minutes à 30 images par seconde produit 54 000 images. Une session de téléopération humanoïde sur une journée de travail en produit des centaines de milliers. Idéalement, chaque image devrait comporter :

  • Boîtes englobantes d'objets (vocabulaire ouvert, pas seulement les 80 classes de COCO)
  • Masques de segmentation d'instance (pour que la politique puisse raisonner sur les régions accessibles)
  • Une description de scène en langage naturel (afin qu'un VLA puisse être conditionné par celle-ci)
  • Identité suivie d'une image à l'autre (donc « la tasse rouge » reste la même tasse)
  • En option : estimations de position 3D, fusionnées avec la profondeur ou les données LiDAR

La rentabilité de l'annotation humaine pour chacune de ces méthodes s'effondre dès les mille premières images. L'« étiquetage automatique » est le terme générique désignant l'utilisation de modèles de base — VLM, détecteurs de vocabulaire ouvert, segmentateurs à suggestions — pour produire ces étiquettes à la vitesse de l'inférence plutôt qu'à la vitesse d'un clic humain.

Le changement intervenu depuis 2023 n'est pas philosophique, il est mécanique. Trois éléments ont évolué au cours de ces dix-huit mois :

  1. La détection à vocabulaire ouvert est désormais utilisable. Entre mi-2024 et fin 2025, Grounding DINO, OWLv2 et Florence-2 sont passés du statut de « démo intéressante » à celui de « qualité production pour environ 80 % des objets courants ».
  2. La segmentation vidéo rapide est arrivée. SAM 2 (mi-2024) et maintenant SAM 3 (sorti en novembre 2025) ont rendu le suivi des masques dans les vidéos peu coûteux, à partir d'une simple phrase nominale. SAM 3, en particulier, accepte directement les phrases conceptuelles — « autobus scolaire jaune » — et renvoie les masques ainsi que les identités stables.
  3. Les VLM ont été immobilisés. Qwen2.5-VL (début 2025) et les familles Qwen3-VL qui lui succèdent génèrent des boîtes englobantes sur la grille de pixels réelle au format JSON stable. Vous pouvez interroger un VLM 72B avec la commande « lister tous les objets de cette image au format JSON avec leurs boîtes englobantes et une brève description » et obtenir en retour un résultat exploitable dans une boucle d'entraînement.

L’état de l’art en 2026 ne se résume pas à un modèle unique, mais à un ensemble de processus composés.

Architecture du pipeline

La pile d'étiquetage automatique de référence ressemble à ceci :

Record de robot
RGB + profondeur + IMU + états articulaires, 10–30 ips
Stocké sur le disque NVMe local, puis synchronisé avec le serveur
Étape 1 — Ancrage du vocabulaire ouvert
Mise à la terre de DINO | OWLv2 | Florence-2
dans: vocabulaire du cadre et de la légende (ou légende libre générée par VLM)
Départ: boîtes englobantes + étiquettes de classe par image
Étape 2 — Segmentation et suivi rapides
SAM 2 ou SAM 3 avec les cases de l'étape 1 comme invites
Départ: masques par instance, identité suivie tout au long du clip
Étape 3 — Description de la scène + relations
Qwen2.5-VL 72B | Cosmos Reason 2
dans: cadre + boîtes/masques des étapes 1 et 2
Départ: légende par image, légendes par objet, relations entre les objets (« tasse SUR la table »)
Étape 4 — Accumulation de modèles mondiaux
Graphique de scène 3D de style ConceptGraphs
Projetez les étiquettes en 3D via la profondeur et la pose de la caméra.
Déduplication entre les vues, création d'un magasin d'instances d'objets
Étape 5 — Niveau d'examen humain (échantillonné)
1 à 5 % des images ont été retirées en raison du score d'incertitude.
Correction apportée par le réviseur dans Roboflow / Labelbox / V7
Les corrections sont renvoyées en guise de signal d'entraînement
Étape 6 — Formation/conditionnement aux politiques
Affiner le VLA (classe OpenVLA, recette OFT)
ou conditionner une politique de manipulation aux trajectoires étiquetées

Pipeline d'étiquetage automatique en six étapes : enregistrement → mise au point → segmentation → description → accumulation → révision → entraînement

Quelques points méritent d'être soulignés avant de passer à la suite.

Tout d'abord, Les étapes 1 et 2 sont souvent regroupées en Grounded-SAM 2.Le pipeline ouvert d'IDEA-Research permet d'intégrer Grounding DINO (ou Florence-2 ou DINO-X) à SAM 2 en une seule étape. Le script d'étiquetage automatique de ce dépôt est l'implémentation classique des « boîtes et masques à partir d'un groupe nominal ». Avec l'interface de saisie de concepts de SAM 3, ce processus est encore simplifié : vous fournissez les mots, vous obtenez les masques correspondants.

En second lieu, L'étape 3 est la plus chère. et celle où le choix du modèle est crucial. Un modèle VLM 7B (Qwen2.5-VL 7B, Florence-2 large) génère des légendes cohérentes à moindre coût, mais passe à côté de subtilités. Un modèle 72B produit des descriptions nettement plus riches, identifie plus souvent les relations correctement et est bien plus utile pour l'entraînement ultérieur du VLA, pour un coût par image environ dix fois supérieur.

Troisièmement, L'étape 4 correspond à ce que les gens entendent par « modèle mondial » dans ce contexte. Il ne s'agit pas d'un modèle vidéo génératif comme Cosmos Predict. C'est un référentiel persistant et 3D qui recense les objets présents dans la pièce, leur emplacement et leurs relations. ConceptGraphs est la solution open source de référence ; OK Robot a démontré sa capacité à gérer environ 170 tâches de prélèvement et de placement dans dix maisons. Ce modèle du monde permet la réutilisation des étiquettes : le robot ne repart pas de zéro à son retour.

Points forts et points faibles des VLM

Tableau honnête, car les supports marketing de chacun de ces modèles sont trompeurs, et ce, de différentes manières :

Qualité de la pile VLM — Évaluation 2026 par type de tâche
Tâche Qualité de la pile VLM (2026)
Détection d'objets courants (cuisine, bureau) Excellent — Plus de 90 % de rappel, faible risque d'hallucinations
catégories de romans à vocabulaire ouvert Bon mais inégal — cela dépend du choix des mots
Segmentation précise au pixel près avec une bonne boîte Excellent — SAM 2/3 est essentiellement résolu
Suivi d'identité sur un clip de 30 secondes Bon avec SAM 3, moyen avec SAM 2 seul
Compter (combien de tasses sur la table) Médiocre — Les VLM hallucinent les comptes de manière persistante
Petits objets / éloignés Médiocre — les boîtes descendent systématiquement en dessous de ~20 px
Mouvement rapide (pince, bras balancé, objet lâché) Médiocre — le flou de mouvement tue à la fois la détection et la segmentation
Éclairage extrême (éblouissement, faible luminosité, infrarouge) Médiocre — la distribution de formation ne couvre pas cela
Objets identiques répétés (boîtes empilées) Médiocre — le suivi d'identité devient confus
Nouvelles catégories issues d'un domaine industriel de niche piscine — open-vocab est « ouvert » au sein d'ImageNet.
Description libre de la scène (un paragraphe) Excellent — Les VLM 72B sont vraiment performants ici.
Relations spatiales (sur, sous, derrière) Bien — Qwen2.5-VL gère cela de manière fiable.

L'appel honnête le plus important : Les étiquettes automatiques sont bruyantes. Dans la littérature de 2025-2026, la détection de vocabulaire ouvert sur des domaines hors distribution présente un taux d'erreur de 5 à 15 % selon la méthode de mesure. L'article de GroundCount, paru début 2026, rapporte une amélioration de 6.6 points de pourcentage de la précision du comptage grâce à l'ajout d'un ancrage explicite du détecteur à un VLM ; cela signifie que les VLM seuls restent encore largement imprécis. Bien que ces erreurs ne soient pas rédhibitoires, elles impliquent qu'un pipeline d'étiquetage automatique non validé n'est pas sûr pour les données d'entraînement critiques.

La mesure d'atténuation qui fonctionne réellement en pratique est la examen d'échantillonnage à deux niveauxTout est automatiquement étiqueté, puis 1 à 5 % des images sont sélectionnées pour une vérification humaine en fonction d'un signal d'incertitude (entropie du jeton VLM, confiance du détecteur, désaccord entre les modèles). Les réviseurs effectuent les corrections, et celles-ci servent soit directement aux données d'entraînement, soit à recalibrer les seuils de confiance de l'étiqueteur automatique. C'est sur cette même boucle que Florence-2 a été entraîné : le jeu de données FLD-5B de Microsoft a été construit en combinant des modèles spécialisés, puis en effectuant un échantillonnage pour vérification.

Empreinte numérique — pourquoi cette solution est déployée sur site

C'est ce qui surprend ceux qui n'ont pas fait les calculs.

Prenons une cible représentative : Une heure d'images de robots à 10 images par seconde provenant d'une caméra stéréo en 1080p. Cela représente 36 000 images. Vous avez besoin des quatre types d’étiquettes : cadres, masques, légendes et identité suivie.

Coût approximatif par image sur une seule RTX 5090 (32 Go, Blackwell, ~104 TFLOPS FP16) :

Calcul par étape — 36 000 images sur une seule RTX 5090
Stage Par image 36 000 images
Mise à la terre DINO (Tinute) ~30 millisecondes ~ 18 min
SAM 2 grand format, masque + propagation ~25 millisecondes ~ 15 min
Légende Qwen2.5-VL 7B ~250 millisecondes ~ 2.5 heures
Légende Qwen2.5-VL 72B (INT4, lot) ~1.5–3 s ~15–30 h
Florence-2 grand (légende seulement) ~80 millisecondes ~ 48 min

Ces chiffres donnent une idée de l'ordre de grandeur ; ils supposent un traitement par lots raisonnable, une gestion efficace des vLLM et une quantification FP16/INT4 lorsque cela est approprié. SAM 2, à lui seul, atteint environ 44 images par seconde sur un A100 dans le benchmark original ; on peut donc espérer environ 50 à 60 images par seconde sur une 5090.

La gamme intéressante est celle du VLM 72B. Si vous souhaitez des descriptions de scène détaillées pour chaque image d'un VLM de classe 72B, Vous ne pouvez pas le faire en temps réel sur un seul GPU. Toi non plus:

  1. Sous-échantillonnez fortement : ajoutez une légende toutes les 10 images, puis interpolez les autres. C’est ce que font la plupart des chaînes de production.
  2. Utilisez un VLM plus petit (classe 7B–11B) pour chaque image et réservez le 72B uniquement aux images clés.
  3. Ajoutez-y davantage de cartes graphiques — auquel cas huit 5090 dans un seul châssis représentent la limite inférieure de la plage pratique.

Le coût total d'un étiquetage automatique complet sur une heure de séquence à 10 images par seconde avec le 72B en boucle s'élève à environ 4 à 8 heures de calcul GPU sur une puce Blackwell grand publicet le châssis 8× 5090 K-AI 256 peut le terminer en bien moins d'une heure d'horloge avec le parallélisme entre les GPU.

Passons maintenant aux calculs liés au cloud. La même charge de travail sur un hyperscaler :

  • Calcul : comparable, voire moins cher au comptant.
  • Sortie de données : brutale. Un enregistrement stéréo 1080p à 10 images par seconde pendant une heure pèse environ 30 à 80 Go en format brut, voire plus si la profondeur de champ est conservée. Le stockage dans le cloud et la récupération des étiquettes coûtent quelques centimes à l'entrée et plusieurs dizaines de dollars à la sortie par traitement. L'étude Robo-DM de Berkeley, publiée en 2025, a mesuré ce phénomène de manière explicite : le stockage de 8.9 To de données Open-X sur Google Cloud coûte 172 $ par mois, mais chaque téléchargement complet coûte entre 172 $ et 1 540 $ selon le niveau de service. À l'échelle d'un parc d'enregistreurs qui enregistre des centaines d'heures par semaine, le coût de la sortie à lui seul dépasse l'amortissement des dépenses d'investissement d'un seul serveur sur site en moins d'un an.
  • Latence sur la boucle : longue. L'intérêt de l'étiquetage automatique réside dans le fonctionnement en boucle fermée : enregistrement aujourd'hui, étiquetage ce soir, optimisation demain, déploiement de la politique améliorée dès le lendemain matin. Un aller-retour vers le cloud ajoute plusieurs heures au temps de chargement sur une connexion montante standard de laboratoire.
  • La confidentialité : un problème. Le même argument des données réglementées de R08 Cela s'applique ici. Les flux vidéo bruts de robots provenant d'une chambre de patient, d'une chaîne de production ou d'un laboratoire de défense ne sont pas transmis au GPU d'un tiers.

C’est pourquoi, en 2026, tout laboratoire de robotique sérieux dispose de sa propre infrastructure de calcul pour l’étiquetage automatique. Le K-AI 256 Turin Dual, équipé de 8 cartes graphiques RTX 5090, est dimensionné de manière quasi optimale pour cette charge de travail : 256 Go de RAM système, huit GPU pour les étapes de traitement parallèles et un SSD NVMe pour le traitement des données. La configuration avec 4 cartes graphiques RTX Pro 6000 Blackwell constitue une option d’évolution lorsque l’équipe souhaite exécuter le modèle 72B en FP16 au lieu d’INT4 et maintenir un plus grand nombre de modèles résidents simultanés.

La boucle fermée

La rentabilité de l'infrastructure sur site ne tient pas à l'étiquetage automatique en lui-même, mais à la boucle qu'il permet.

Jour N soir
La flotte de robots rentre de mission et synchronise environ 6 heures d'enregistrements.
Jour et nuit
Étiquetage automatique du serveur pendant la nuit (4 à 8 heures GPU par heure de robot)
Jour N+1 matin
L'équipe de révision gère le niveau signalé de 1 à 5 %.
Après-midi du jour N+1
LoRA / OFT peaufinent la politique VLA
Soirée du jour N+1
Nouveaux poids intégrés et validés en simulation
Jour N+2 matin
Déploiement sur la flotte, les robots sont déployés avec une politique mise à jour

Boucle quotidienne fermée — enregistrement → étiquetage automatique → vérification → ajustement → validation → déploiement

C’est pour cette boucle que la recette OpenVLA-OFT (mars 2025) a été conçue : un réglage fin 25 à 50 fois plus rapide qu’OpenVLA standard, optimisé pour un serveur GPU de type station de travail. FLaRe (ICRA 2025) en est l’équivalent pour l’apprentissage par renforcement. Les travaux sur l’apprentissage continu et le réglage fin basé sur des adaptateurs (OMLA, LifeLong-RFT) permettent une adaptation sans oubli catastrophique.

Rien de tout cela ne fonctionne à la cadence d'aller-retour du cloud. La boucle est essentielle, et cette boucle exige que les données et la puissance de calcul soient hébergées dans le même bâtiment.

Un exemple concret : l'humanoïde domestique

Pour rendre cela concret, imaginez le système d'étiquetage automatique le plus simple et viable pour un humanoïde effectuant des tâches ménagères (remplir le lave-vaisselle, plier le linge, récupérer des objets dans un bac étiqueté).

Enregistrement: L'humanoïde est équipé de caméras stéréo RGB à 30 images par seconde, de caméras aux poignets à 15 images par seconde, d'une fonction de profondeur stéréo active et d'une fréquence d'acquisition des mouvements des articulations de 200 Hz. Une session de deux heures produit environ 250 Go de données brutes sur le disque NVMe embarqué.

Sync: À la fin de la session, le robot télécharge les données sur le serveur K-AI du laboratoire via une connexion filaire ou Wi-Fi 6E, environ 5 à 10 minutes pour 250 Go.

Étape 1+2 (Grounded-SAM 2) : Détection à vocabulaire ouvert avec un vocabulaire de domaine d'environ 200 noms communs du quotidien (« tasse », « spatule », « panier à linge », « torchon bleu »…), auxquels s'ajoutent les effecteurs terminaux propres à l'agent. SAM 2 propage les masques par clips. Temps d'exécution (8× 5090) : environ 45 minutes.

Stade 3 (Qwen2.5-VL) : 7B VLM à chaque image pour une brève légende, 72B toutes les dix images pour une description plus détaillée et les relations entre les objets. Durée : environ 3 heures.

Étape 4 (graphique de la scène) : Un accumulateur de type ConceptGraphs construit un graphe de scène 3D persistant de l'appartement. À la fin de la semaine, chaque objet détecté par le robot est intégré au graphe avec un identifiant stable, des descripteurs linguistiques et une position 3D approximative. Durée : quelques minutes par session, amorties.

Étape 5 (révision) : Un outil interne signale les images pour lesquelles le niveau de confiance de la classe du VLM est inférieur à 0.6, ou lorsque les étapes 1 et 3 divergent quant à la classe. Un examinateur traite environ 500 images par heure. Avec un taux d'échantillonnage de 5 % sur une session de deux heures, cela représente environ une heure de travail humain par jour.

Étape 6 (formation) : Les étiquettes corrigées permettent un réglage fin du VLA, de type OFT. Le serveur K-AI exécute cette opération pendant la nuit sur le même matériel que celui utilisé pour l'étiquetage automatique ; les charges de travail sont séquentielles et non simultanées.

Il ne s'agit pas d'une expérience de pensée scientifique. Il s'agit de ce que 1X, Skild AI et les groupes ayant publié des travaux sur OpenVLA font réellement en 2026, compte tenu de leurs variations internes. Le pipeline et les modèles sont ouverts ; le principal obstacle réside dans les ressources de calcul et d'ingénierie, et non dans l'accès aux algorithmes.

limites honnêtes

Trois points que cet article ne saurait passer sous silence :

L'hallucination est réelle et persistante. Même avec une double vérification, il est impossible de se fier aux étiquettes automatiques non vérifiées pour les formations critiques en matière de sécurité (évitement des collisions, gestion des contacts, toute situation où une étiquette erronée pourrait nuire au robot ou à une personne). Utilisez-les pour la formation aux compétences, et non pour la formation à la sécurité. Pour la sécurité, il est indispensable d'utiliser des données validées.

La mise à la terre hors réseau se dégrade rapidement. Un système d'étiquetage visuel (VLM) entraîné principalement sur des images web sera excellent dans les cuisines et les bureaux, mais nettement moins performant dans un atelier d'usinage CNC ou un service hospitalier. La solution consiste à paramétrer finement le système d'étiquetage automatique en fonction du domaine, ce qui a un coût.

Le modèle mondial est fragile face aux changements environnementaux. ConceptGraphs et les outils apparentés partent du principe que le monde reste relativement statique entre deux visites. Si l'on déplace les meubles, le graphe de scène doit être reconstruit ou revérifié de manière approfondie. Des travaux sont en cours sur ce sujet (graphes de scène en ligne à vocabulaire ouvert, article de Naver Labs de 2025, entre autres), mais il convient de considérer le modèle du monde comme consultatif et non comme une référence absolue.

Les estimations présentées ici sont approximatives. Les valeurs par image dépendent de la stratégie de traitement par lots, de la quantification, de la durée de l'invite et de la résolution de l'image. Le tableau donne un ordre de grandeur ; c'est cet ordre de grandeur qui importe pour dimensionner la boîte.

Que faire ensuite

Si vous évaluez l'opportunité de mettre en place une pile d'étiquetage automatique :

  1. Déterminez ce que vous devez réellement étiqueter. Pour les boîtes et les masques uniquement, Grounded-SAM 2 sur un seul GPU suffit. Pour les légendes et les relations, il vous faut au minimum 7 à 11 milliards de VLM. Pour les descriptions détaillées destinées à l'entraînement VLA, il vous faut 72 milliards de VLM et il est essentiel d'estimer avec précision le temps de calcul GPU nécessaire.
  2. Auditez votre domaine. Les objets qui vous intéressent sont-ils inclus dans la liste d'entraînement des détecteurs à vocabulaire ouvert ? Si vous travaillez principalement dans des cuisines, des bureaux ou des entrepôts, la réponse est oui. Dans les secteurs industriels ou médicaux spécialisés, prévoyez un paramétrage précis de l'étiqueteuse automatique avant de vous y fier.
  3. Planifiez le niveau d'évaluation dès le premier jour. Choisissez un outil (Roboflow, Labelbox, V7 ou une solution maison avec échantillonnage basé sur l'incertitude) et prévoyez au moins un équivalent temps plein de relecteur pour dix heures de robot par jour d'enregistrement. Le processus d'étiquetage automatique ne remplace pas les humains, il modifie leurs tâches.
  4. Dimensionnez le calcul pour l'étape 72B. Les autres étapes sont compatibles avec tous les systèmes. Le VLM 72B à grande échelle justifie le serveur 8 GPU. Si votre pipeline n'utilise que des VLM de classe 7B, un serveur 4 GPU suffit. Pour des descriptions plus détaillées et un réglage fin en boucle fermée, optez pour la configuration 8 GPU.
  5. Installez le niveau de stockage sur un disque NVMe et le niveau froid sur un disque dur classique. Une semaine d'enregistrement de flotte représente des téraoctets. L'étiqueteur automatique est plus souvent limité par les E/S que par la puissance de calcul du GPU lorsqu'on utilise les modèles les plus petits.

La gamme Kentino comprend K-AI 256 Turin Dual / 8× RTX 5090 dimensionnés pour cette charge de travail côté consommateur de silicium, et le K-AI 4× RTX Pro 6000 Blackwell Pour les configurations avec une capacité de VRAM plus élevée, lorsque vous souhaitez exécuter simultanément plusieurs VLM de grande taille, consultez les pages produits correspondantes et un prochain article d'I05 qui détaillera la configuration de référence complète.

Cette architecture de pointe évolue chaque trimestre : SAM 3 a six mois, Qwen3-VL vient d’être commercialisé et Cosmos Reason 2 est tout récent. Par conséquent, les modèles présentés dans cet article deviendront obsolètes plus rapidement que l’architecture elle-même. Cette dernière est désormais stable. Boîtes, masques, légendes, graphe de scène, revue, entraînement, déploiement : ce cycle est immuable.


Cet article fait partie du Kentino Wiki, une série de référence sur l'intelligence artificielle, la robotique et les systèmes qui les connectent. Vos commentaires et corrections sont les bienvenus à l'adresse info@kentino.com.

Zpet na blog