
Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras
Des chercheurs ont publié Co-VLA (arXiv:2606.20285), un framework de manipulation bimanurale qui intègre des priors structurels explicites dans les modèles VLA (Vision-Language-Action). L'architecture remplace la tête d'action monolithique habituelle par un Structured Action Expert (SAE) couplé à un Latent-Aware Controller (LAC) opérant au niveau des commandes articulaires. Le SAE décompose la représentation latente en une composante partagée encodant l'intent de coordination au niveau de la tâche, et des résidus par bras capturant les ajustements d'exécution propres à chaque effecteur. Les résultats expérimentaux, en simulation et sur banc réel, montrent un gain de 27 points de taux de succès sur les tâches à coordination serrée, un doublement des performances hors-distribution (de 13 % à 27 %), et une réduction du temps d'exécution allant jusqu'à 25 % face aux baselines monolithiques.
L'enjeu central est de rendre fiable et interprétable la coordination bimanurale dans des scénarios industriellement contraints : assemblage à force symétrique, manipulation d'objets déformables, chaînes de montage à deux bras. Les VLA actuels comme Pi-0 ou GR00T N2 montrent que la coordination émergente fonctionne sur des tâches simples, mais échoue à garantir la stabilité quand les contraintes d'exécution sont critiques. Co-VLA répond à cette limite sans requérir de contrôle en force ni en impédance : le LAC module en temps réel la synchronisation, l'asymétrie et les contraintes de sécurité tout en restant compatible avec les pipelines de contrôle standard, ce qui abaisse la barrière d'intégration pour les équipementiers. Le doublement des performances OOD est l'indicateur le plus stratégique, suggérant que la structure explicite améliore la robustesse hors-distribution, un critère décisif pour les déploiements industriels réels.
Le domaine des VLA pour la manipulation s'est accéléré depuis 2023, porté par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui ont repoussé les limites de la généralisation en manipulation mono et bimanurale. Co-VLA s'inscrit dans une tendance qui réintroduit de la structure explicite dans l'apprentissage end-to-end, une tension classique entre approches connexionnistes et symboliques qui refait surface à l'ère des grands modèles de fondation. Aucun partenaire industriel ni timeline de commercialisation n'est mentionné dans l'abstract : il s'agit d'un preprint de recherche académique, sans robot identifié ni déploiement annoncé à ce stade.
Dans nos dossiers




