Aller au contenu principal
MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel
IA physiquearXiv cs.RO1sem

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent MotionWAM (arXiv:2606.09215), un World Action Model (WAM) temps réel pour la loco-manipulation humanoïde, validé sur neuf tâches physiques avec un Unitree G1 piloté par une unique caméra égocentrique. Contrairement aux architectures dominantes qui séparent une politique pour les bras et un contrôleur pour la locomotion, le système prédit des tokens de mouvement corps-entier dans un espace d'action unifié couvrant locomotion, déplacements du torse, régulation de hauteur, interaction plantaire et manipulation des mains. Pour atteindre le temps réel, MotionWAM conditionne la politique sur les features intermédiaires de débruitage d'un modèle monde vidéo, évitant le débruitage itératif complet sur des latents haute dimension, goulot d'étranglement des WAMs antérieurs. Sur le hardware réel, le système dépasse de plus de 30 points les baselines Vision-Language-Action (VLA) entraînées sur les mêmes démonstrations et réalise des tâches d'interaction plantaire inatteignables par les politiques haut/bas-corps découplées.

Le paradigme hiérarchique haut/bas-corps, présent dans des systèmes comme GR00T N2 (NVIDIA) et de nombreuses architectures humanoïdes commerciales, contraint les jambes à un simple rôle d'équilibre déconnecté de la manipulation. MotionWAM démontre sur matériel réel que cette contrainte n'est pas une fatalité et valide que des modèles monde pré-entraînés sur vidéo peuvent réduire la dépendance aux démonstrations robotiques coûteuses. Les métriques restent à contextualiser: neuf tâches sur un seul embodiment, sans publication de temps de cycle ni de robustesse aux variations de scène, restent loin d'une validation industrielle.

Les WAMs appliqués à la robotique s'appuient sur des travaux antérieurs en manipulation tabletop (UniSim, Genie de Google DeepMind); MotionWAM étend ces techniques à la commande humanoïde corps-entier. Face aux approches VLA dominantes dans les publications de référence, notamment pi-0 (Physical Intelligence) et GR00T N2, cette architecture propose une alternative centrée sur la dynamique vidéo pré-entraînée. Les prochaines étapes naturelles concernent la validation multi-embodiment et des déploiements industriels semi-structurés, où la variabilité des environnements constituera le vrai test de maturité.

À lire aussi

DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables
1arXiv cs.RO 

DeMaVLA : un modèle fondation vision-langage-action (VLA) pour la manipulation de matériaux déformables

Des chercheurs ont publié DeMaVLA, un modèle fondation de type Vision-Langage-Action (VLA) conçu pour la manipulation d'objets déformables, en particulier le pliage de vêtements. Annoncé en preprint arXiv (2605.31286, mai 2026), DeMaVLA couple un backbone VLM à un module appelé "action expert" qui génère des trajectoires continues par flow matching. Pour réduire les coûts d'entraînement et d'inférence, cet action expert est construit en élaguant une couche transformer sur deux du backbone, tout en préservant l'alignement entre les deux modules. Le modèle est d'abord pré-entraîné sur environ 5 000 heures de démonstrations bimanuals en conditions réelles, puis affiné via un pipeline DAgger (Data Aggregation) avec supervision humaine : des trajectoires correctives sont collectées à partir des échecs du robot sur plusieurs tâches de pliage, puis réinjectées en entraînement. Les résultats sont compétitifs sur le benchmark RoboTwin et solides sur un benchmark maison de pliage domestique. La plupart des systèmes VLA actuels entraînent des politiques séparées par catégorie d'objet (un réseau pour les t-shirts, un autre pour les pantalons), ce qui limite la généralisation et alourdit la maintenance. DeMaVLA propose une politique unifiée capable de traiter des vêtements de géométries, matières et états initiaux variés sans réentraînement par catégorie, ce qui est directement pertinent pour les intégrateurs en robotique domestique et logistique. Le recours au DAgger avec boucle humaine est aussi un signal industriel : les corrections issues des échecs du robot, structurées et réinjectées, améliorent concrètement la robustesse au-delà des seules démonstrations expertes. Cela valide l'hypothèse que les données correctives à grande échelle sont un levier clé pour réduire le sim-to-real gap sur des tâches à haute variabilité. La manipulation d'objets déformables reste l'un des problèmes ouverts les plus difficiles en robotique physique : contrairement aux objets rigides, un vêtement n'a pas d'état canonique stable, ce qui complique radicalement la planification et la perception. Plusieurs équipes travaillent sur ce terrain : Physical Intelligence avec Pi-0 (manipulation généraliste bimanuels), NVIDIA avec GR00T N2, et divers laboratoires académiques (Columbia, CMU) sur la manipulation textile. DeMaVLA se positionne sur le créneau des fondations multi-tâches déformables, en combinant pré-entraînement à grande échelle et fine-tuning correctif. Ce travail reste un preprint non encore évalué par les pairs, et les benchmarks maisons appellent à une validation indépendante. Les suites naturelles sont l'extension à d'autres objets déformables (câbles, sacs souples) et l'évaluation sur des plateformes robotiques commerciales en environnement non contrôlé.

IA physiqueOpinion
1 source
FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples
2arXiv cs.RO 

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Une équipe de chercheurs a publié sur arXiv (référence 2606.08555) FAWAM, un modèle d'action robotique intégrant les signaux de force à trois niveaux distincts du pipeline de manipulation : la perception, la prédiction et l'exécution en boucle fermée. Concrètement, le système encode des signaux force/couple sur six axes (6-DoF wrench) pour moduler la génération d'actions, prédit conjointement les actions futures et les efforts en bout d'effecteur afin de modéliser explicitement l'évolution du contact, puis utilise cette trajectoire de wrench prédite comme référence d'exécution pour corriger les actions en temps réel via un module de correction résiduelle. Sur plusieurs tâches de manipulation nécessitant des contacts riches -- vissage, insertion, assemblage par contrainte -- FAWAM affiche un taux de succès moyen supérieur de 36,25 % aux baselines purement visuelles et de 21,25 % aux baselines force-aware existantes. Il s'agit d'un preprint, sans déploiement industriel annoncé à ce stade. L'apport technique est notable pour les intégrateurs et les équipes R&D en manipulation apprise : la plupart des politiques modernes type Diffusion Policy, ACT ou des VLA (Vision-Language-Action models) traitent la force comme une modalité d'observation annexe, sans lui donner de rôle prédictif dans la dynamique future du contact. FAWAM repositionne le signal force comme variable de première classe dans l'architecture du modèle, ce qui permet une correction online des actions sans nécessiter de replanification complète. C'est précisément ce découplage entre prédiction de wrench et correction résiduelle qui explique le gain de performance : le robot anticipe l'effort attendu avant de l'observer, et ajuste en conséquence dès qu'un écart apparaît. Pour un COO ou un directeur technique envisageant des cellules d'assemblage automatisées, cela représente une réduction significative du gap simulation-réalité sur les tâches à contact fort. La manipulation en contact riche reste l'un des derniers verrous majeurs de la robotique industrielle polyvalente, là où les approches vision-seule échouent dès que les tolérances sont serrées ou les surfaces glissantes. Des travaux récents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques de manipulation de Google DeepMind intègrent parfois la proprioception mais rarement le couple d'axe complet en boucle de prédiction. FAWAM s'inscrit dans un courant émergent de world action models orientés contact, aux côtés de travaux comme RoboDex ou des approches de manipulation tactile de Berkeley et Carnegie Mellon. La prochaine étape logique serait une validation sur robot humanoïde ou sur bras industriel en environnement semi-structuré, ce que le preprint ne couvre pas encore.

IA physiqueOpinion
1 source
Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique
3arXiv cs.RO 

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

Des chercheurs ont déposé le 1er juin 2026 sur arXiv (réf. 2606.01027) τ₀-WM (tau-zéro World Model), une architecture unifiée vidéo-action pour la manipulation robotique. Le modèle repose sur un backbone de diffusion vidéo partagé qui intègre simultanément apprentissage de politique, prédiction vidéo et évaluation d'actions au sein d'un même cadre prédictif. Il expose deux interfaces complémentaires : un modèle d'action vidéo qui prédit conjointement des représentations visuelles latentes futures et des séquences d'actions continues à partir d'observations multi-caméras, d'instructions en langage naturel et de l'état courant du robot ; et un simulateur vidéo conditionné sur l'action, capable de dérouler des séquences candidates en projections multi-vues tout en attribuant des scores denses de progression de tâche. L'entraînement porte sur environ 27 300 heures de données combinant téléopération réelle, interactions de style UMI (Universal Manipulation Interface, protocole de collecte de données en bimanuel développé par Stanford), vidéos égocentrées humaines, et trajectoires de succès comme d'échecs. L'intérêt principal réside dans la convergence entre politique et modèle de monde au sein d'une architecture commune. Les VLA (Vision-Language-Action models) actuels génèrent des actions sans anticiper leurs conséquences, laissant la gestion des erreurs à des modules séparés. τ₀-WM introduit un mécanisme de rectification à l'inférence : le simulateur évalue chaque séquence candidate via un score dense de progression, et les candidats jugés insuffisants sont corrigés par re-débruitage. Ce test-time scaling structuré pourrait réduire les interventions humaines sur des tâches longue durée, un enjeu clé pour les intégrateurs industriels qui peinent encore à déployer des robots autonomes sur des séquences de plus de quelques étapes. Sur les benchmarks de manipulation fine et longue séquence, les auteurs déclarent surpasser les baselines comparables, sans préciser les conditions expérimentales ni les contraintes matérielles testées. Ce travail s'inscrit dans une course engagée depuis fin 2024 entre Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Figure (Helix) pour des architectures VLA à grande échelle, mais rares sont celles qui intègrent simulation interne et évaluation d'action dans un seul modèle plutôt que dans un pipeline découplé. L'usage de données UMI signale une stratégie d'agrégation multi-source qui dépasse les corpus propriétaires et pourrait favoriser la généralisation à de nouveaux environnements. Le papier reste pour l'instant un preprint non soumis à revue par les pairs : les performances annoncées restent à valider sur robot physique en conditions réelles, et aucune date de déploiement ou partenariat industriel n'est mentionné.

IA physiqueOpinion
1 source
MotionVLA : un modèle vision-langage-action pour les robots humanoïdes
4arXiv cs.RO 

MotionVLA : un modèle vision-langage-action pour les robots humanoïdes

Une équipe de l'AIGeeksGroup a publié le 18 juin 2026 sur arXiv (2606.15142) MotionVLA, un modèle de type Vision-Language-Action conçu pour générer du mouvement humanoïde réaliste à partir d'images de scène et d'instructions textuelles. Le coeur de la contribution repose sur DSFT (Dual-Stream Frequency Tokenizer), un tokeniseur qui décompose le signal de mouvement en deux flux distincts : un flux Base capturant la sémantique de pose basse fréquence, et un flux Phys encodant la dynamique physique haute fréquence. Cette séparation s'appuie sur une analyse en transformée en cosinus discrète (DCT) du corpus HumanML3D, qui révèle un déséquilibre concret : cinq coefficients DCT suffisent à couvrir 93 % de l'énergie des positions articulaires, mais seulement 37 % de l'énergie des vélocités. Les deux flux sont compressés indépendamment par troncature DCT et encodage BPE, puis réinjectés dans un transformeur autorégressif basé sur Qwen3.5 2B. Sur les benchmarks HumanML3D et MBench, MotionVLA réduit l'écart de diversité avec les données réelles de plus de 50 % et améliore la cohérence mouvement-condition de 3,8 %. Ce résultat pointe une limite structurelle des approches à codebook unique, qui dominent actuellement la génération de mouvement humanoïde : en forçant des signaux hétérogènes dans un espace de quantification commun, ces méthodes sous-représentent systématiquement les composantes dynamiques hautes fréquences au profit de la géométrie de pose. Pour les équipes travaillant sur le contrôle de robots humanoïdes ou la synthèse d'animation procédurale, cela signifie que la qualité du mouvement généré peut sembler plausible en posture statique mais manquer de naturel en transition. L'architecture duale de MotionVLA, malgré un backbone léger de 2 milliards de paramètres, obtient des gains mesurables sans augmenter significativement le coût de calcul. MotionVLA s'inscrit dans un mouvement de recherche plus large qui adapte les VLA, initialement développés pour le contrôle robotique visuomoteur, à la génération de comportement humanoïde. Le modèle s'appuie sur Qwen3.5, la famille de modèles open-weight d'Alibaba, et le code source est disponible sur GitHub (AIGeeksGroup/MotionVLA). À ce stade, il s'agit exclusivement d'un résultat de recherche académique évalué sur des benchmarks synthétiques standard, sans déploiement industriel ni partenariat hardware annoncé. Les acteurs comme Figure AI, 1X, Agility Robotics ou Fourier Intelligence, qui investissent dans la génération de mouvement pour leurs humanoïdes, suivent de près ce type de travaux, même si le chemin du benchmark de laboratoire vers un déploiement sim-to-real reste non démontré ici.

IA physiqueOpinion
1 source