Aller au contenu principal
StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires
IA physiquearXiv cs.RO4sem

StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2605.18287) StableVLA, une approche visant à renforcer la robustesse des modèles Vision-Language-Action (VLA) face aux perturbations visuelles non représentées dans les données d'entraînement. Le coeur de la contribution est l'Information Bottleneck Adapter (IB-Adapter), un module léger fondé sur la théorie de l'information qui filtre sélectivement le bruit dans les entrées visuelles. Sans données supplémentaires ni stratégie d'augmentation, l'IB-Adapter améliore les performances de la baseline de 30% en moyenne, pour un surcoût inférieur à 10 millions de paramètres. Malgré un backbone de seulement 0,5 milliard de paramètres, soit 14 fois plus petit que les VLA concurrents à 7B, StableVLA atteint une robustesse comparable à ces modèles sur des tâches à horizon long, et surpasse OpenPi sous corruptions visuelles synthétiques et physiques, sans pré-entraînement sur le jeu de données Open X-Embodiment.

Ce résultat adresse un angle mort critique du déploiement robotique réel : il est structurellement impossible de couvrir dans un dataset d'entraînement l'ensemble des conditions visuelles dégradées rencontrées en production (éclairage adverse, occlusions partielles, flou de bougé, saleté sur les capteurs). Les VLA actuels, malgré leurs performances en benchmark, accusent une chute significative dès qu'une perturbation inédite apparaît, ce qui constitue un frein majeur à leur industrialisation. L'approche proposée réduit ce gap sim-to-real sans alourdir les pipelines de collecte de données, ce qui est pertinent pour les intégrateurs cherchant à déployer des systèmes génériques sans ingénierie de dataset coûteuse.

Le contexte de ce travail est la montée en puissance des architectures VLA pour la manipulation robotique généraliste, portée notamment par Physical Intelligence avec Pi-0 (OpenPi), qui fait office de référence dans la catégorie 7B. Open X-Embodiment, le corpus de référence pour le pré-entraînement multi-robot, reste difficile d'accès pour des équipes à ressources limitées. StableVLA se positionne explicitement contre cette tendance à l'échelle, en pariant sur l'efficacité paramétrique. Le papier reste un preprint arXiv sans validation industrielle annoncée, et les métriques de robustesse présentées gagneraient à être confrontées à des évaluations sur matériel réel dans des conditions non contrôlées.

À lire aussi

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes
1arXiv cs.RO 

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Une équipe du HCPLab de l'Université Sun Yat-sen (SYSU, Chine) a déposé fin mai 2026 sur arXiv (réf. 2605.19678) RoVLA, un cadre d'entraînement pour renforcer la robustesse des modèles Vision-Language-Action (VLA). Ces modèles, qui couplent perception visuelle, compréhension du langage et génération d'actions pour la manipulation robotique, sont reconnus pour leur fragilité face aux variations d'instructions ou aux perturbations visuelles. RoVLA introduit trois contraintes de cohérence appliquées lors de l'entraînement end-to-end : la cohérence instructionnelle (IC), qui stabilise l'ancrage sémantique sous des reformulations équivalentes d'une même commande ; la cohérence évolutive (EC), qui maintient une intention d'action consistante tout au long de la génération de trajectoire ; et la cohérence observationnelle (OC), qui force des prédictions stables avant et après perturbations visuelles ou proprioceptives. Les expériences sont conduites sur les benchmarks LIBERO-Plus et RoboTwin 2.0, ainsi que sur des tâches de manipulation réelles, avec des performances supérieures aux baselines testées. L'enjeu est bien documenté : les VLA actuels, qu'il s'agisse de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, souffrent d'un gap de robustesse distributionnelle avéré. Dès que les conditions visuelles changent, les instructions sont paraphrasées ou les perturbations s'accumulent, les performances chutent significativement, bloquant le déploiement dans des environnements industriels non contrôlés comme l'assemblage ou la logistique d'entrepôt. RoVLA propose une réponse architecturale en forçant explicitement l'invariance pendant l'entraînement, plutôt que d'augmenter le volume de données ou d'adapter post-hoc, deux stratégies courantes mais insuffisantes pour garantir la stabilité en conditions réelles. Si les résultats se confirment à plus grande échelle, cette approche pourrait réduire concrètement le sim-to-real gap pour des politiques incarnées en production. Ce travail s'inscrit dans une compétition dense entre laboratoires académiques et industriels autour de la robustesse des VLA. Google DeepMind (RT-2, RT-X), Physical Intelligence et NVIDIA ont tous investi massivement dans des architectures à grande échelle sans traiter explicitement l'invariance en cours d'entraînement, ce que RoVLA tente précisément de corriger. Le projet reste pour l'instant un article de recherche académique : aucun déploiement commercial n'est annoncé, et le code sera publié sur GitHub sous le compte HCPLab-SYSU/RoVLA. La prochaine étape crédible serait une validation sur robots physiques en environnement industriel non contrôlé, que les premiers résultats en manipulation réelle esquissent sans encore l'établir à l'échelle.

UELes équipes R&D françaises et européennes spécialisées en manipulation robotique industrielle pourront évaluer cette approche lors de la publication du code (HCPLab-SYSU/RoVLA), mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements
3arXiv cs.RO 

Rendre votre modèle VLA plus robuste sans données supplémentaires grâce à l'intégration de la planification de mouvements

Des chercheurs présentent MPVI (Motion Planner / VLA Interleaving), une architecture hybride qui intègre la planification de mouvement classique dans les modèles VLA (Vision-Language-Action) pour renforcer leur robustesse en manipulation mobile sans nécessiter de données supplémentaires. Publiée sur arXiv (2606.00985), cette approche s'attaque à un problème documenté des VLA : leur difficulté à enchaîner des séquences longues de sous-tâches spatialement distribuées. Sur le benchmark BEHAVIOR-1K, MPVI affiche une amélioration de 113 % de la progression des tâches par rapport au meilleur VLA bout-en-bout de référence, sans aucun ré-entraînement du modèle de base. Le diagnostic des auteurs est net : dans les tâches à long horizon, les erreurs d'exécution précoces s'amplifient à mesure que la séquence s'allonge, et le fine-tuning sur de larges volumes de données téléopérées humaines n'y change rien. MPVI découple la navigation et la manipulation : un planificateur classique prend en charge la localisation et le déplacement vers des objets distants ou occultés, en s'appuyant sur la détection à vocabulaire ouvert et l'exploration de frontière, tandis que le VLA gère les manipulations de précision. La commutation entre les deux modules est pilotée par un mécanisme de vérification d'état via un modèle vision-langage (VLM), couplé à des déclencheurs proprioceptifs, sans entraînement supplémentaire. La course aux architectures VLA bout-en-bout est aujourd'hui dominée par Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses successeurs, et des initiatives comme LeRobot de Hugging Face, toutes misant sur des données à grande échelle pour gagner en généralité. MPVI s'inscrit dans un courant concurrent qui défend l'hybridation avec la robotique classique planifiée, une position partagée notamment par les travaux SayCan de Google Research. Le benchmark BEHAVIOR-1K, développé à Stanford et évalué en simulation, est conçu pour mesurer la robustesse sur des tâches domestiques variées et longues, ce qui en fait un terrain de test exigeant. Les auteurs ne revendiquent aucun déploiement physique réel : MPVI reste à ce stade une contribution académique, sans plateforme hardware ni partenaire industriel annoncé.

UEHugging Face (entreprise française) est cité comme acteur de référence dans l'espace VLA avec LeRobot, mais MPVI reste une contribution académique en simulation sans déploiement ni partenariat européen annoncé.

IA physiqueOpinion
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
4arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source