Aller au contenu principal
Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial
RecherchearXiv cs.RO2sem

Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (identifiant 2605.31387) une étude évaluant les capacités des modèles vision-langage (VLM) dans des tâches de reconstruction collaborative en plusieurs tours de dialogue. Le protocole repose sur un cadre multi-agents où deux VLMs communiquent via le langage pour reconstruire une structure cible à partir d'entrées visuelles et textuelles. Les chercheurs ont testé des modèles open-weight et des modèles propriétaires selon plusieurs paramètres : modalités d'entrée, représentations d'image (entières ou décomposées), et formats de description de la cible. Résultat principal : les VLMs peinent à raisonner spatialement sur des représentations visuelles, et les gains obtenus grâce au dialogue multi-tours restent modestes. Le titre lui-même ne cache pas l'ambivalence : "improves VLM performance... but only barely".

Ce résultat est significatif pour les équipes qui intègrent des pipelines VLM ou VLA (Vision-Language-Action) dans des systèmes robotiques. La recherche confirme que la compréhension spatiale visuelle, pourtant centrale pour des robots opérant en environnements non structurés, reste un point faible structurel des VLMs actuels. Fait notable pour les intégrateurs : les représentations textuelles détaillées de la structure cible surpassent systématiquement les représentations purement visuelles, quelle que soit la modalité testée. Autrement dit, pour une tâche d'assemblage collaboratif, une description sémantique structurée s'avère plus fiable que de laisser le modèle interpréter une image de référence. Les représentations d'images décomposées, où la scène est fragmentée en éléments distincts, améliorent les performances mais ne comblent pas l'écart.

Ce travail s'inscrit dans un courant de recherche croissant autour des agents VLM pour la robotique collaborative, stimulé par des architectures comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui font le pari que des VLMs pré-entraînés peuvent généraliser à des tâches robotiques complexes via du fine-tuning ou du prompting. L'étude nuance cet optimisme en exposant les limites actuelles du raisonnement spatial ancré (grounded), particulièrement dans des scénarios de dialogue interactif. Les pistes identifiées incluent l'amélioration des mécanismes de grounding spatial et le raffinement des représentations d'images dans les boucles de dialogue multi-agents, des axes qui intéressent directement les labos travaillant sur la manipulation en environnements non structurés.

À lire aussi

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur
1arXiv cs.RO 

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

CoMo3R-SLAM est un système de SLAM dense collaboratif monoculaire présenté en preprint sur arXiv (2605.30488) en mai 2026. Il permet à plusieurs robots de construire ensemble une carte 3D dense d'un environnement extérieur en n'utilisant que des caméras RGB monoculaires, sans capteurs de profondeur de type LiDAR ou RGB-D. Chaque agent embarque un front-end guidé par des priors de reconstruction appris pour assurer le suivi en temps réel et la fusion dense locale. Un coordinateur centralisé prend ensuite en charge la cohérence globale via correspondance de pointmaps denses, synchronisation géométrique Sim(3) en forme fermée, et ajustement de faisceaux global accéléré GPU avec optimisation de profondeur par segments. Le système ne requiert ni capteur de profondeur ni calibration d'intrinsèques paramétriques. Tournant en ligne à 8 FPS, il obtient le meilleur ATE (erreur de trajectoire absolue) sur trois des quatre scènes Tanks and Temples, et des résultats compétitifs sur les séquences Waymo, égalant ou dépassant les méthodes RGB-D état de l'art. L'impact concret pour l'industrie est d'abord matériel : supprimer les capteurs de profondeur réduit significativement le poids embarqué, le coût unitaire et la complexité de calibration des plateformes robotiques. LiDAR et caméras RGB-D représentent souvent plusieurs kilogrammes et plusieurs milliers d'euros par unité, ce qui pénalise le déploiement en flotte. Que des priors d'apprentissage profond permettent de lever l'ambiguïté d'échelle monoculaire en extérieur valide une hypothèse forte du secteur : les modèles feed-forward de reconstruction 3D sont désormais suffisamment robustes pour opérer hors conditions contrôlées. Pour les intégrateurs et décideurs B2B, cela ouvre la voie à des flottes de robots légers capables de cartographier collaborativement des environnements vastes sans infrastructure capteur lourde. Le SLAM collaboratif dense est un défi ouvert depuis une décennie. Des systèmes comme COVINS ou Kimera-Multi s'appuient encore majoritairement sur des capteurs de profondeur ou des environnements intérieurs. La montée en puissance des modèles de reconstruction 3D appris, notamment DUSt3R (2023) et MASt3R (2024), issus de Naver Labs Europe à Grenoble, a rendu accessible la reconstruction dense monoculaire sans calibration explicite. CoMo3R-SLAM est la première application de ces priors dans un cadre multi-agents outdoor. Les benchmarks Tanks and Temples et Waymo constituent une validation pertinente pour des conditions de déploiement réelles. Côté concurrents, les systèmes multi-robots embarqués de Boston Dynamics, ANYbotics ou de spécialistes SLAM comme SLAMcore restent ancrés sur des architectures multi-capteurs. Ce preprint, non encore évalué par les pairs, ouvre la voie à des pilotes sur drones d'inspection ou robots mobiles légers où le rapport poids/performance est critique.

UECoMo3R-SLAM s'appuie directement sur DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble, validant l'apport fondamental de la recherche française comme socle des futurs systèmes SLAM multi-agents légers en extérieur.

RecherchePaper
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
2arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Raisonnement robuste sur l'état d'assemblage par reconnaissance d'actions pour la collaboration homme-robot
3arXiv cs.RO 

Raisonnement robuste sur l'état d'assemblage par reconnaissance d'actions pour la collaboration homme-robot

Une étude publiée sur arXiv (identifiant 2606.20150) en juin 2026 évalue de manière systématique cinq méthodes de suivi d'état d'assemblage à partir de la reconnaissance d'actions humaines (HAR), dans le cadre de la collaboration homme-robot (HRC). Les chercheurs ont testé des approches à base de règles logiques, de modèles de Markov cachés (HMM) et de réseaux de neurones (NN) sur deux jeux de données aux caractéristiques différentes. Les tests combinent des entrées simulées avec différents niveaux de bruit et des entrées réalistes issues d'un modèle HAR opérationnel. L'objectif est de déterminer quelle méthode permet de suivre fidèlement l'état d'une tâche d'assemblage coopérative, étape par étape, à partir de la seule reconnaissance des gestes humains. Les résultats contredisent l'hypothèse dominante selon laquelle les approches par réseaux de neurones surpassent systématiquement les méthodes classiques. Les NN et HMM affichent de bonnes performances sur des tâches à faible variabilité, mais se révèlent fragiles face à des séquences atypiques ou bruitées. Les méthodes logiques, bien que moins sophistiquées, se montrent plus robustes dans les scénarios à haute variabilité. Par ailleurs, la modélisation de la durée attendue des actions s'avère critique pour les tâches comportant des actions répétées, notamment lorsqu'aucun capteur complémentaire ne fournit de signal de confirmation. Ce constat a des implications directes pour les intégrateurs industriels qui déploient des cellules HRC sur des lignes d'assemblage réelles : choisir un modèle d'inférence d'état inadapté au profil de la tâche peut entraîner des erreurs de synchronisation robot-opérateur difficiles à diagnostiquer. Ce travail s'inscrit dans un domaine de recherche en pleine effervescence, porté par l'essor des robots collaboratifs (cobots) dans les environnements manufacturiers. Des acteurs comme Universal Robots, FANUC ou encore des laboratoires européens tels que ceux du LAAS-CNRS et de Fraunhofer travaillent sur des pipelines HAR similaires pour des applications d'assistance à l'assemblage. La difficulté centrale, le "demo-to-reality gap" entre conditions de laboratoire et déploiement en usine, reste entière. Cette étude ne propose pas de solution universelle mais établit une carte comparative utile, à condition que les praticiens caractérisent d'abord la variabilité réelle de leur tâche avant de sélectionner une architecture de suivi d'état.

UELe LAAS-CNRS et Fraunhofer sont explicitement cités comme acteurs travaillant sur des pipelines HAR similaires, et les conclusions comparatives offrent une grille de décision directement utilisable par les intégrateurs européens qui déploient des cellules cobot sur des lignes d'assemblage réelles.

RecherchePaper
1 source
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
4arXiv cs.RO 

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper
1 source