Aller au contenu principal
Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras
RecherchearXiv cs.RO1j

Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié Co-VLA (arXiv:2606.20285), un framework de manipulation bimanurale qui intègre des priors structurels explicites dans les modèles VLA (Vision-Language-Action). L'architecture remplace la tête d'action monolithique habituelle par un Structured Action Expert (SAE) couplé à un Latent-Aware Controller (LAC) opérant au niveau des commandes articulaires. Le SAE décompose la représentation latente en une composante partagée encodant l'intent de coordination au niveau de la tâche, et des résidus par bras capturant les ajustements d'exécution propres à chaque effecteur. Les résultats expérimentaux, en simulation et sur banc réel, montrent un gain de 27 points de taux de succès sur les tâches à coordination serrée, un doublement des performances hors-distribution (de 13 % à 27 %), et une réduction du temps d'exécution allant jusqu'à 25 % face aux baselines monolithiques.

L'enjeu central est de rendre fiable et interprétable la coordination bimanurale dans des scénarios industriellement contraints : assemblage à force symétrique, manipulation d'objets déformables, chaînes de montage à deux bras. Les VLA actuels comme Pi-0 ou GR00T N2 montrent que la coordination émergente fonctionne sur des tâches simples, mais échoue à garantir la stabilité quand les contraintes d'exécution sont critiques. Co-VLA répond à cette limite sans requérir de contrôle en force ni en impédance : le LAC module en temps réel la synchronisation, l'asymétrie et les contraintes de sécurité tout en restant compatible avec les pipelines de contrôle standard, ce qui abaisse la barrière d'intégration pour les équipementiers. Le doublement des performances OOD est l'indicateur le plus stratégique, suggérant que la structure explicite améliore la robustesse hors-distribution, un critère décisif pour les déploiements industriels réels.

Le domaine des VLA pour la manipulation s'est accéléré depuis 2023, porté par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui ont repoussé les limites de la généralisation en manipulation mono et bimanurale. Co-VLA s'inscrit dans une tendance qui réintroduit de la structure explicite dans l'apprentissage end-to-end, une tension classique entre approches connexionnistes et symboliques qui refait surface à l'ère des grands modèles de fondation. Aucun partenaire industriel ni timeline de commercialisation n'est mentionné dans l'abstract : il s'agit d'un preprint de recherche académique, sans robot identifié ni déploiement annoncé à ce stade.

À lire aussi

Les interactions structurées améliorent la coordination distribuée mieux que le passage à l'échelle des modèles dans un système multi-robots réel
1arXiv cs.RO 

Les interactions structurées améliorent la coordination distribuée mieux que le passage à l'échelle des modèles dans un système multi-robots réel

Une étude déposée sur arXiv (ref. 2605.30383) compare, dans un système multi-robots réel, deux leviers d'amélioration des performances collectives : restructurer la topologie de communication entre robots, ou augmenter la taille des modèles d'apprentissage embarqués. Le protocole mobilise 10 robots physiques sur une tâche combinée de transport et de cartographie, soit 60 runs au total (5 par condition expérimentale). Résultat principal : passer d'une architecture entièrement connectée à une hiérarchie modulaire améliore la performance normalisée de 47 points sur une échelle 0 à 100, contre au maximum 9 points gagnés en doublant la taille des couches cachées du réseau de neurones. Des modèles mixtes à effets imbriqués confirment que la topologie de communication explique une variance bien plus importante que la taille du modèle. Une saturation des gains est observée au-delà de 1 024 unités cachées, mais uniquement en extrapolation calibrée par simulation, et non directement sur le matériel testé - une nuance importante pour interpréter ce chiffre. Pour les intégrateurs de flottes robotiques, le message est immédiatement opérationnel : revoir l'architecture de coordination peut offrir un gain de performance cinq fois supérieur à l'ajout de puissance de calcul embarquée par robot, à budget matériel constant. Dans un contexte où les flottes d'AMR (autonomous mobile robots) se densifient dans la logistique et l'industrie manufacturière, l'arbitrage entre intelligence individuelle et structure collective du système devient un choix de conception concret. L'étude questionne une hypothèse largement répandue dans le secteur : que scaler les capacités unitaires de chaque robot est le levier dominant du progrès en robotique collaborative - un biais coûteux si les gains réels se trouvent ailleurs. Cette publication s'inscrit dans le champ du MARL (multi-agent reinforcement learning) déployé sur plateforme physique, un gap encore peu comblé entre benchmark simulé et terrain. Les résultats sont répliqués sur le benchmark SMAC, complétés par des analyses de benchmarks hétérogènes que les auteurs qualifient eux-mêmes de preuves secondaires. Le périmètre reste étroit : une seule tâche, 10 robots, une architecture. La généralisation quantitative à d'autres systèmes et d'autres échelles reste à établir. Les acteurs qui déploient des flottes denses, Exotec en France, Locus Robotics ou 6 River Systems aux États-Unis, opèrent précisément dans ce domaine où l'arbitrage topologie-modèle pourrait peser sur les prochaines roadmaps produit.

UEExotec (France), acteur majeur des flottes AMR logistiques, est explicitement cité comme potentiellement concerné par ces résultats, qui pourraient réorienter les choix d'architecture de coordination dans ses prochaines roadmaps produit.

RecherchePaper
1 source
COSMIC : optimisation simultanée de la structure, des matériaux et du contrôle intégré pour les systèmes robotiques
2arXiv cs.RO 

COSMIC : optimisation simultanée de la structure, des matériaux et du contrôle intégré pour les systèmes robotiques

Des chercheurs ont publié sur arXiv (référence 2605.12654, mai 2026) COSMIC, un framework de co-conception par descente de gradient pour robots à treillis structurel (truss-lattice) qui optimise simultanément la topologie, la distribution des matériaux et la politique de contrôle. Contrairement aux approches classiques où structure, matériaux et contrôle sont conçus séquentiellement par des équipes distinctes, COSMIC intègre un contrôleur neuronal directement dans un simulateur différentiable, permettant le calcul automatique des gradients à travers l'ensemble du pipeline de conception. Les variables topologiques et matérielles, de nature mixte (discrètes et continues), sont encodées dans un espace continu, et une optimisation sous contraintes navigue un paysage de solutions hautement non-convexe. Les études de cas démontrent que le framework découvre systématiquement des stratégies de locomotion plus performantes que les approches à conception séparée, tout en s'adaptant à différentes conditions aux limites et exigences fonctionnelles. L'enjeu est fondamental : la quasi-totalité des systèmes robotiques actuels, des bras industriels aux humanoïdes, souffrent d'un déficit de co-conception hérité de la séparation des disciplines mécaniques, matériaux et contrôle. COSMIC s'attaque directement à ce que les biologistes observent depuis des décennies : dans la nature, morphologie et contrôle co-évoluent, et cette interaction produit des solutions inaccessibles à l'optimisation séparée. Pour les équipes R&D, l'approche par différentiation automatique ouvre la voie à des boucles de conception automatisées plutôt que manuelles, réduisant potentiellement les itérations de prototypage. La flexibilité annoncée vis-à-vis des conditions fonctionnelles suggère une applicabilité au-delà de la locomotion (reconfiguration, manipulation), mais ces affirmations restent à ce stade limitées à des validations en simulation. La co-conception robotique est un domaine actif depuis plusieurs années, avec des approches concurrentes issues de la robotique évolutionnaire (travaux de Josh Bongard, NEAT morphologique) et des frameworks différentiables comme DiffTaichi ou Brax de Google DeepMind. COSMIC se distingue par l'intégration simultanée des trois entités dans un cadre gradient unifié, là où la plupart des travaux existants n'en co-optimisent que deux. La lacune critique du papier est l'absence de validation hardware : les robots truss-lattice sont réputés difficiles à fabriquer et à contrôler physiquement, et le gap sim-to-real constitue l'obstacle majeur avant toute application industrielle. Les prochaines étapes annoncées concernent des comportements autonomes complexes, sans timeline ni partenaire industriel mentionnés.

RecherchePaper
1 source
IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë
3arXiv cs.RO 

IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë

Des chercheurs ont publié le 15 mai 2026 sur arXiv (référence 2605.14712) une nouvelle architecture de politique robotique baptisée IntentVLA, conçue pour résoudre un problème structurel des modèles vision-langage-action (VLA) appliqués à la manipulation : le conflit entre séquences d'actions consécutives. Le cœur du problème est l'ambiguïté des données d'imitation humaine, deux observations visuelles quasi-identiques peuvent légitimement déboucher sur des trajectoires différentes, selon l'intention à court terme du démonstrateur, la phase de la tâche en cours ou le contexte récent. IntentVLA répond à cela en encodant les observations visuelles récentes en une représentation compacte d'intention à court horizon, qui conditionne ensuite la génération du chunk d'actions courant. Les auteurs ont également construit AliasBench, un benchmark de 12 tâches conçu explicitement pour isoler ce phénomène d'aliasing, déployé sur le simulateur RoboTwin2, avec données d'entraînement et environnements d'évaluation appariés. Les résultats montrent une stabilité d'exécution améliorée et des performances supérieures aux baselines VLA de référence sur quatre environnements : AliasBench, SimplerEnv, LIBERO et RoboCasa. L'apport technique central est l'introduction du conditionnement par historique dans les VLA, là où les architectures existantes, dites frame-conditioned, n'exploitent que l'observation courante et l'instruction textuelle. Sous observabilité partielle, condition fréquente en manipulation réelle, ces politiques peuvent rééchantillonner des intentions différentes à chaque étape de replanification, générant des conflits inter-chunks qui se traduisent par des exécutions instables ou des échecs de tâche. IntentVLA formalise ce mécanisme via une représentation d'intention latente, compacte et exploitable à chaque pas de décision. Pour les intégrateurs robotiques et les équipes de recherche en apprentissage par imitation, c'est une validation expérimentale que l'historique visuel proche est un signal utile, distinct de l'instruction langagière, et qu'il peut être encodé de façon efficace sans alourdir le pipeline d'inférence. AliasBench constitue en soi une contribution méthodologique : les benchmarks existants ne distinguaient pas explicitement les situations d'aliasing, rendant difficile l'évaluation ciblée de ce défaut. Le contexte est celui d'une course à la généralisation des politiques de manipulation, portée par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI. Ces architectures VLA de grande taille partagent le même défaut potentiel : inférence chunk par chunk sans mémoire explicite de l'intention récente. IntentVLA s'inscrit dans une ligne de travaux académiques cherchant à corriger ce manque sans abandonner l'architecture transformer sous-jacente. L'absence d'institution identifiée dans le preprint et le fait qu'il ne s'agisse que d'un résultat sur simulateurs, sans déploiement réel annoncé, invitent à la prudence sur la portée immédiate. Les prochaines étapes attendues sont un transfert sim-to-real et une intégration dans des pipelines de fine-tuning de modèles VLA existants.

RechercheOpinion
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
4arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source