Aller au contenu principal
MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes
RecherchearXiv cs.RO3sem

MuGen : un contrôleur de locomotion multi-compétences pour robots humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 26 mai 2026 sur arXiv un article présentant MuGen (Multi-Skill Generative Locomotion Controller), un framework d'apprentissage automatique visant à doter les robots humanoïdes d'une locomotion polyvalente et expressive. Le système repose sur des auto-encodeurs à quantification vectorielle (VQ-VAEs) entraînés par apprentissage par renforcement basé sur des modèles, combinés à un pipeline dit "enseignant-élève" avec distillation de politique. Le principe consiste à condenser des heures de données hétérogènes de mouvements humains en une représentation latente compacte, depuis laquelle un robot peut imiter des séquences de mouvement jamais vues à l'entraînement. À noter : l'article ne précise ni plateforme matérielle spécifique, ni métriques quantitatives concrètes (vitesse, payload, temps de cycle), ce qui est habituel pour un preprint de recherche fondamentale à ce stade.

Ce qui distingue MuGen des approches classiques de locomotion humanoïde est le choix d'une représentation générative via VQ-VAE, plutôt qu'une politique spécialisée par comportement. Cette architecture permet la réutilisation de l'espace latent appris pour des tâches en aval, ouvrant la voie à un transfert de compétences sans réentraînement complet. La distillation enseignant-élève est un point structurant : la politique enseignante, puissante mais coûteuse en calcul, sert à former une politique élève légère et déployable sur matériel embarqué. Pour les intégrateurs et décideurs industriels, ce paradigme réduit le fossé sim-to-real et laisse entrevoir des robots capables d'adopter de nouveaux comportements locomoteurs à partir d'une simple séquence de référence humaine, sans fine-tuning massif.

MuGen s'inscrit dans un courant de recherche actif sur l'imitation motrice pour humanoïdes, dans la lignée de travaux comme AMP (Adversarial Motion Priors, UC Berkeley), ASE ou PhysDiff. Dans l'industrie, Figure AI, Agility Robotics (Digit), Unitree et Tesla (Optimus) investissent massivement dans des pipelines similaires de whole-body control combinant motion capture et RL. L'usage de VQ-VAEs reste relativement peu exploré pour la locomotion, contrairement à son application établie en génération audio et image. Le papier étant un preprint arXiv sans révision par les pairs à ce stade, la prochaine étape déterminante sera une validation sur plateforme physique réelle avec métriques comparatives, condition sine qua non pour évaluer la portée opérationnelle de l'approche.

À lire aussi

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
1arXiv cs.RO 

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper
1 source
MUJICA : architecture de contrôle unifiée multi-compétences pour robots hybrides roues-pattes
2arXiv cs.RO 

MUJICA : architecture de contrôle unifiée multi-compétences pour robots hybrides roues-pattes

Des chercheurs ont publié sur arXiv (référence 2605.13058) un framework de contrôle unifié pour robots à roues et pattes, baptisé MUJICA (Multi-skill Unified Joint Integration of Control Architecture). L'architecture regroupe en une seule politique trois compétences locomotrices distinctes : déplacement omnidirectionnel, escalade de plateformes élevées et récupération après chute. Chaque compétence est identifiée par des variables indicatrices propres et entraînée conjointement avec une modélisation précise des contraintes des moteurs à courant continu. Un sélecteur de compétences de haut niveau apprend ensuite à choisir dynamiquement la compétence optimale à partir de la seule proprioception, sans caméra ni LiDAR. Les expériences ont été conduites en simulation puis sur le robot Unitree Go2-W, la variante à roues du quadrupède Go2 commercialisé par Unitree Robotics. Ce travail adresse un problème structurel des robots hybrides roues-pattes : alterner entre contrôle roulant et contrôle locomoteur sans transitions abruptes ni dégradation de performance aux limites mécaniques des actionneurs. Le bruit proprioceptif et les contraintes réelles des moteurs rendent cette robustesse difficile à obtenir, particulièrement lors du transfert sim-to-real. MUJICA améliore ce transfert en intégrant un modèle DC-moteur précis dès la phase d'entraînement, ce qui réduit l'écart entre simulation et déploiement physique. Pour un intégrateur industriel ou un COO logistique, cela signifie un robot hybride capable de naviguer de façon autonome dans des environnements non structurés (entrepôts encombrés, chantiers, zones mixtes) sans reconfigurations manuelles entre modes de déplacement. Le Unitree Go2-W est l'une des rares plateformes commerciales hybrides roues-pattes accessibles (le Go2 standard est vendu entre 1 600 et 2 700 USD selon configuration), ce qui en fait un banc de test pertinent pour la reproductibilité. Dans la compétition plus large sur la locomotion adaptative, des acteurs comme ANYbotics (ANYmal), Boston Dynamics (Spot) ou des équipes académiques de l'ETH Zurich et de Carnegie Mellon développent des approches concurrentes, souvent basées sur vision ou LiDAR. MUJICA se distingue par son pari sur la proprioception seule, choix réaliste pour des déploiements sans infrastructure sensorielle lourde. L'article restant un preprint non évalué par des pairs, les métriques de performance en conditions réelles devront être confirmées lors d'une soumission en conférence (IROS, ICRA ou CoRL).

RecherchePaper
1 source
Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé
3arXiv cs.RO 

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Une équipe de chercheurs propose Adaptive Humanoid Control (AHC), un framework de contrôle locomoteur pour humanoïdes publié sur arXiv (2511.06371v3). Le problème de départ est structurel : les méthodes dominantes entraînent une politique séparée pour chaque compétence (se relever, marcher, courir, sauter), générant des contrôleurs rigides qui échouent dès que le terrain devient irrégulier. AHC y répond en deux phases : d'abord, plusieurs politiques primaires sont entraînées puis fusionnées par distillation multi-comportements en un contrôleur unique capable de commuter dynamiquement selon le contexte ; ensuite, un affinage par renforcement avec retours en ligne consolide l'adaptabilité sur terrains variés. Le système est validé en simulation et en conditions réelles sur le robot Unitree G1 d'Unitree Robotics. Pour les intégrateurs et les décideurs industriels, la promesse est concrète : un seul contrôleur couvrant l'ensemble des comportements locomoteurs réduit la complexité opérationnelle et supprime les transitions manuelles entre modes. Du côté de la recherche, le résultat le plus notable est que la distillation combinée à un fine-tuning par RL en ligne permet de réduire partiellement le sim-to-real gap sans ré-entraînement complet. La réserve à formuler : le papier ne publie pas de métriques quantitatives détaillées (taux de succès par terrain, fréquence de chute), ce qui rend difficile la comparaison objective avec d'autres approches. Le Unitree G1 (1,27 m, environ 35 kg, 16 000 dollars) est devenu depuis 2024 une plateforme de recherche de référence pour ce type de travaux. AHC s'inscrit dans une compétition internationale où Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix) et Boston Dynamics cherchent tous à produire des politiques locomotrices généralisables hors environnement contrôlé. L'approche par distillation multi-politiques rappelle les travaux de curriculum learning menés à Berkeley et CMU, et l'affinage par RL en ligne emprunte aux méthodologies RLHF adaptées à la robotique physique. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le projet en est au stade de la démonstration académique.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
4arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source