Aller au contenu principal
Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde
IA physiquearXiv cs.RO3sem

Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose DUST (DUal-STream diffusion), un framework qui augmente les modèles vision-langage-action (VLA) avec un world model pour améliorer l'apprentissage de politiques robotiques. L'architecture repose sur un transformer de diffusion multimodal qui maintient des flux séparés pour chaque modalité (vision et action) tout en permettant un partage de connaissances inter-modal. Techniquement, DUST introduit des perturbations de bruit indépendantes, une perte flow matching découplée pour apprendre les relations causales entre modalités, et une méthode d'échantillonnage asynchrone des tokens action et vision. Sur les benchmarks simulés RoboCasa et GR-1, DUST affiche des gains allant jusqu'à 6 % par rapport aux meilleures références VLA et world-modeling actuelles, avec une amélioration supplémentaire de 2 à 5 % via le scaling à l'inférence. Sur tâches réelles avec le bras Franka Research 3, le système surpasse les baselines de 10 % en taux de succès.

Le point critique ici est la gestion du "modality gap" : prédire simultanément des états visuels futurs et des séquences d'actions est un problème ouvert, car les deux modalités ont des structures temporelles et sémantiques très différentes. DUST contourne ce problème en maintenant des flux distincts plutôt qu'en les fusionnant naïvement, ce qui préserve les propriétés propres à chaque modalité. Le gain de 10 % en conditions réelles est notable, mais reste à interpréter avec prudence : les expériences portent sur un seul robot (Franka Research 3) et les tâches réelles ne sont pas détaillées dans l'abstract, ce qui limite la généralisation. La capacité de transfer learning à partir de vidéos sans annotations d'actions ouvre en revanche une voie concrète pour réduire le coût de collecte de données.

DUST s'inscrit dans une vague de travaux qui cherchent à doter les VLA d'une forme de "prévoyance" via des world models, en écho à des approches comme GR-1 (Humanoid VLA de Shanghai AI Lab) ou Pi-0 de Physical Intelligence. La tendance lourde est de combiner la puissance des LLM pour le raisonnement avec des modèles prédictifs du monde physique, pour réduire le sim-to-real gap et permettre une généralisation hors distribution. La prochaine étape logique serait de tester DUST sur des morphologies robotiques hétérogènes et des tâches de manipulation longue durée, ce que le joint-training avec des datasets humains et robots suggère comme direction.

À lire aussi

TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels
1arXiv cs.RO 

TBD-VLA : modèle vision-langage-action à diffusion par blocs temporels

Une équipe de chercheurs propose TBD-VLA (Temporal Block Diffusion Vision Language Action Model), un nouveau cadre de génération d'actions pour les modèles Vision-Language-Action (VLA) robotiques, publié le 9 juin 2026 sur arXiv (identifiant 2606.07895). L'approche repose sur la diffusion discrète par blocs temporels : les séquences d'actions sont partitionnées en blocs, à l'intérieur desquels un processus de diffusion masquée génère les tokens d'action en parallèle, tandis que la génération reste autoregressive d'un bloc à l'autre. Le modèle intègre également une fonctionnalité baptisée "Real-Time Chunking", qui permet l'exécution asynchrone des blocs d'action via un mécanisme d'interpolation temporelle (temporal in-painting). Les auteurs rapportent des gains de performance significatifs sur benchmarks en simulation et sur des tâches de manipulation en environnement réel par rapport aux approches VLA antérieures, sans préciser de métriques chiffrées dans l'abstract. L'enjeu central que TBD-VLA cherche à résoudre est double : la latence d'inférence élevée des VLA discrets classiques, et l'absence de modélisation explicite des dépendances temporelles dans les architectures de décodage parallèle récentes. Les VLA discrets standard génèrent les actions token par token de manière autoregressive, une approche précise mais trop lente pour les contraintes temps-réel d'un bras manipulateur industriel. Les tentatives précédentes de décodage parallèle accélèrent l'inférence mais sacrifient la cohérence temporelle entre tokens. TBD-VLA propose un compromis structuré : parallélisme intra-bloc pour la vitesse, autoregressivité inter-blocs pour la cohérence. Si les gains annoncés se confirment à l'échelle, cette architecture offre une voie vers des VLA déployables en milieu industriel avec des contraintes de cycle time réalistes. Le développement des VLA robotiques s'est accéléré depuis 2023 avec des modèles comme Pi-0 de Physical Intelligence (basé sur la diffusion continue), OpenVLA de l'Université de Californie Berkeley, et les approches RoboVLMs. TBD-VLA se distingue en restant dans l'espace des tokens discrets, aligné avec les architectures LLM standards, tout en empruntant à la diffusion pour la génération intra-bloc. Le papier publie un site de projet (tbd-vla.github.io) et présente des résultats sur simulation et manipulation réelle, mais reste à ce stade une contribution académique sans déploiement industriel annoncé. La prochaine étape logique serait une intégration dans des pipelines de fine-tuning sur données propriétaires, terrain sur lequel Physical Intelligence et Figure AI conservent une avance significative.

IA physiqueOpinion
1 source
Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
2arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source
DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables
4arXiv cs.RO 

DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables

Des chercheurs ont publié DeMaVLA, un modèle fondation de type Vision-Langage-Action (VLA) conçu pour la manipulation d'objets déformables, en particulier le pliage de vêtements. Annoncé en preprint arXiv (2605.31286, mai 2026), DeMaVLA couple un backbone VLM à un module appelé "action expert" qui génère des trajectoires continues par flow matching. Pour réduire les coûts d'entraînement et d'inférence, cet action expert est construit en élaguant une couche transformer sur deux du backbone, tout en préservant l'alignement entre les deux modules. Le modèle est d'abord pré-entraîné sur environ 5 000 heures de démonstrations bimanuals en conditions réelles, puis affiné via un pipeline DAgger (Data Aggregation) avec supervision humaine : des trajectoires correctives sont collectées à partir des échecs du robot sur plusieurs tâches de pliage, puis réinjectées en entraînement. Les résultats sont compétitifs sur le benchmark RoboTwin et solides sur un benchmark maison de pliage domestique. La plupart des systèmes VLA actuels entraînent des politiques séparées par catégorie d'objet (un réseau pour les t-shirts, un autre pour les pantalons), ce qui limite la généralisation et alourdit la maintenance. DeMaVLA propose une politique unifiée capable de traiter des vêtements de géométries, matières et états initiaux variés sans réentraînement par catégorie, ce qui est directement pertinent pour les intégrateurs en robotique domestique et logistique. Le recours au DAgger avec boucle humaine est aussi un signal industriel : les corrections issues des échecs du robot, structurées et réinjectées, améliorent concrètement la robustesse au-delà des seules démonstrations expertes. Cela valide l'hypothèse que les données correctives à grande échelle sont un levier clé pour réduire le sim-to-real gap sur des tâches à haute variabilité. La manipulation d'objets déformables reste l'un des problèmes ouverts les plus difficiles en robotique physique : contrairement aux objets rigides, un vêtement n'a pas d'état canonique stable, ce qui complique radicalement la planification et la perception. Plusieurs équipes travaillent sur ce terrain : Physical Intelligence avec Pi-0 (manipulation généraliste bimanuels), NVIDIA avec GR00T N2, et divers laboratoires académiques (Columbia, CMU) sur la manipulation textile. DeMaVLA se positionne sur le créneau des fondations multi-tâches déformables, en combinant pré-entraînement à grande échelle et fine-tuning correctif. Ce travail reste un preprint non encore évalué par les pairs, et les benchmarks maisons appellent à une validation indépendante. Les suites naturelles sont l'extension à d'autres objets déformables (câbles, sacs souples) et l'évaluation sur des plateformes robotiques commerciales en environnement non contrôlé.

IA physiqueOpinion
1 source