Aller au contenu principal
Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE
RecherchearXiv cs.RO2j

Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté dans un preprint arXiv (2602.00678, version 4) un cadre unifié combinant une politique de locomotion Mixture-of-Experts (MoE) et RoboGauge, une suite d'évaluation prédictive du transfert simulation-réel, appliquée à la locomotion quadrupède. L'architecture MoE déploie un ensemble d'experts spécialisés activés par un mécanisme de gating, chacun modélisant un sous-espace distinct de représentation du terrain et des commandes moteur, en s'appuyant uniquement sur la proprioception (encodeurs articulaires, centrale inertielle), sans caméra ni LiDAR. Les expériences sur un Unitree Go2 ont validé une locomotion robuste sur des terrains non vus à l'entraînement: neige, sable, escaliers, pentes et obstacles de 30 cm. En tests haute vitesse, le robot a atteint 4 m/s, avec apparition spontanée d'une allure à faible écartement latéral que les auteurs associent à une meilleure stabilité dynamique à grande vitesse.

L'apport central est RoboGauge, qui génère des métriques proprioceptives multi-dimensionnelles via des tests sim-to-sim couvrant plusieurs terrains, niveaux de difficulté et randomisations de domaine, permettant de sélectionner le meilleur checkpoint de politique MoE sans validation physique répétée. Pour les équipes de R&D et les intégrateurs industriels, cela adresse directement le principal goulot d'étranglement du déploiement de robots marcheurs: le coût et le risque des essais terrain. La robustesse obtenue avec proprioception seule est également significative, car elle conteste l'hypothèse fréquente selon laquelle la vision ou le LiDAR seraient indispensables hors d'environnements contrôlés, élargissant l'espace d'application en milieux non structurés (entrepôts, chantiers, extérieurs). Il convient cependant de noter que les métriques de vitesse et d'obstacle sont issues de tests en conditions choisies, sans données de taux d'échec agrégées sur des déploiements prolongés.

Ce travail s'inscrit dans une filière de recherche initiée par ETH Zurich avec ANYmal (commercialisé par ANYbotics) et les équipes de Berkeley sur l'apprentissage agile en locomotion. Le Unitree Go2, vendu autour de 1 600 dollars, est devenu la plateforme de référence académique en raison de son accessibilité. Les concurrents industriels comme Boston Dynamics (Spot) ou les acteurs AMR européens comme Exotec développent des approches similaires de robustesse multi-terrain, bien que leurs validations restent largement propriétaires. Les suites naturelles de ce travail incluent la publication de RoboGauge comme outil de benchmark open-source inter-plateformes et son extension potentielle à d'autres morphologies, notamment les humanoïdes dont le transfert sim-to-real reste un défi ouvert.

Impact France/UE

Si RoboGauge est publié en open source, les équipes européennes (ANYbotics, intégrateurs industriels UE) bénéficieraient d'un outil de benchmark standardisé réduisant les coûts de validation physique pour la locomotion quadrupède.

À lire aussi

Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes
1arXiv cs.RO 

Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes

Une équipe de chercheurs a publié sur arXiv (preprint 2605.07988) une étude empirique évaluant les bénéfices d'une colonne vertébrale motorisée pour la locomotion agile de robots quadrupèdes. Les expériences ont été conduites en simulation MuJoCo sur le Silver Badger de MAB Robotics, startup polonaise spécialisée dans les robots à pattes. La colonne vertébrale testée dispose d'un seul degré de liberté (1-DOF) dans le plan sagittal, permettant flexion et extension verticale du tronc. Cinq scénarios ont été évalués : course à haute vitesse, montée de marches, franchissement de pentes à fort angle, saut d'obstacles et progression dans des passages étroits. Les résultats indiquent que le robot équipé du spine motorisé franchit des marches plus hautes, des pentes plus raides, des obstacles plus élevés et des passages plus étroits que sa version à tronc rigide, sans que des métriques précises (angles, hauteurs, vitesses) soient communiquées dans le résumé. Ces résultats confirment empiriquement un principe observé chez les animaux mais peu exploré en robotique commerciale : la mobilité du tronc étend les capacités locomotrices sans nécessiter une refonte architecturale majeure. Pour les intégrateurs et développeurs de plateformes mobiles, l'ajout d'un seul actionneur sur le tronc pourrait élargir le domaine d'opérabilité dans des environnements complexes, entrepôts, chantiers ou milieux semi-naturels. La limite majeure reste le cadre purement simulé de l'étude : les gains rapportés n'ont pas été validés sur matériel réel, et le sim-to-real gap constitue un obstacle classique pour ce type de modification mécanique, notamment en ce qui concerne les dynamiques de contact sol/pattes. La question du spine flexible en quadrupédie robotique n'est pas nouvelle, les études sur les félins et guépards ayant démontré que la flexion du tronc allonge l'enjambée et améliore l'efficacité énergétique. En pratique, des plateformes comme ANYmal d'ANYbotics (Suisse) ou Spot de Boston Dynamics ont opté pour des troncs rigides, privilégiant la simplicité de contrôle et la robustesse mécanique. MAB Robotics, entreprise polonaise de l'écosystème UE, positionne le Silver Badger comme plateforme de recherche ouverte à ce type d'expérimentation. Les suites logiques incluent une validation sur robot physique, un spine multi-DOF, et une mesure de l'impact sur la consommation énergétique, paramètre absent de l'étude actuelle.

UEMAB Robotics (Pologne, UE) fournit la plateforme Silver Badger pour cette étude, confirmant son rôle de vecteur de recherche ouverte dans l'écosystème robotique européen des quadrupèdes, aux côtés d'ANYbotics (Suisse).

RecherchePaper
1 source
Locomotion quadrupède sensible à la dynamique via une tête de dynamique intrinsèque
2arXiv cs.RO 

Locomotion quadrupède sensible à la dynamique via une tête de dynamique intrinsèque

Des chercheurs ont déposé le 2 mai 2026 sur arXiv (identifiant 2605.01227) un cadre d'entraînement appelé "Intrinsic Dynamics Head" (ID Head) pour améliorer la locomotion des robots quadrupèdes sur terrains complexes. Le principe repose sur un entraînement simultané de deux composants : une politique de contrôle classique (Control Policy) et un module auxiliaire, l'ID Head, qui apprend à prédire le couple articulaire (torque) directement à partir de l'état du robot. Ce module génère une "dynamics reward", une récompense qui oriente la politique vers des comportements mécaniquement plus prévisibles. Les expériences de transfert sim-to-real sur robot physique affichent des gains mesurés de 16,8 % sur l'efficacité en couple (torque efficiency), 18,6 % sur le taux d'action (action rate), 12,8 % sur la puissance mécanique consommée, et une amélioration de 6,4 % de l'occupation sécurisée des couples (safe torque occupancy). L'intérêt de cette approche dépasse la performance brute : elle s'attaque directement au problème du "sim-to-real gap" dans la locomotion sur pattes, en rendant la politique explicitement consciente des dynamiques physiques sous-jacentes. Les politiques RL classiques produisent souvent des mouvements erratiques et des pics de couple qui usent prématurément les actionneurs et provoquent des arrêts de sécurité en déploiement réel. Pour un intégrateur ou un développeur de plateforme, des gains de 16 à 19 % sur ces métriques se traduisent concrètement par une durée de vie accrue des composants et une meilleure fiabilité opérationnelle. L'ID Head offre également un levier de réglage fin via ses coefficients d'entraînement, sans nécessiter de réentraînement complet de la politique. Ce travail s'inscrit dans le courant dominant de l'apprentissage par renforcement pour la locomotion sur pattes, porté depuis 2022 par des contributions majeures d'ETH Zurich autour d'ANYmal et par les politiques déployées sur Spot (Boston Dynamics) ou les plateformes Unitree (Go2, H1). Il répond aux critiques récurrentes sur le caractère mécaniquement sous-optimal des politiques RL pures, trop consommatrices de couples. À noter : il s'agit d'une prépublication académique sans partenariat industriel annoncé ni calendrier de déploiement. La validation sur des plateformes commerciales à plus grande échelle reste à démontrer.

RecherchePaper
1 source
Robot Squid Game : locomotion quadrupède pour traverser des tunnels étroits
3arXiv cs.RO 

Robot Squid Game : locomotion quadrupède pour traverser des tunnels étroits

Des chercheurs publient sur arXiv (réf. 2605.13665, mai 2026) un framework d'apprentissage par renforcement (RL) permettant à des robots quadrupèdes de traverser de manière autonome des environnements 3D confinés : tunnels, grottes et structures effondrées, avec des applications ciblées en recherche et sauvetage et en inspection d'infrastructures. La méthode repose sur deux mécanismes complémentaires : une génération procédurale de géométries de tunnels pendant l'entraînement, qui expose le robot à une grande diversité de configurations spatiales, et un paradigme enseignant-étudiant (teacher-student) de distillation de politiques. Des politiques expertes spécialisées sur des géométries spécifiques transfèrent leur connaissance à une politique étudiante unifiée, évitant ainsi le reward shaping complexe habituellement requis dans l'entraînement end-to-end. Les résultats sont validés à la fois en simulation et en expériences physiques réelles sur robot quadrupède. L'enjeu est concret : les approches classiques de locomotion quadrupède échouent régulièrement face à des espaces confinés non structurés, en raison d'allures (gaits) rigides et d'hypothèses environnementales trop simplistes. En décomposant une tâche complexe en sous-tâches apprenables indépendamment, le framework réduit la difficulté d'optimisation et améliore la généralisabilité, un résultat que les approches monolithiques end-to-end peinent à atteindre sur des géométries variées. Pour un intégrateur en sécurité civile ou en inspection de réseaux souterrains, ce type de robustesse comportementale dans des tunnels aux contraintes spatiales variables est un pas mesurable vers des déploiements autonomes réels, au-delà des démonstrations sur terrains balisés. La locomotion quadrupède en milieu confiné a été un axe central du DARPA Subterranean Challenge (2018-2021), compétition qui a exposé les limites des approches heuristiques dans des souterrains non cartographiés, avec des équipes impliquant Boston Dynamics, CMU et ANYbotics. Le paradigme teacher-student appliqué à la locomotion RL s'inscrit dans une tendance active initiée notamment par les travaux d'ETH Zurich sur ANYmal et les recherches de DeepMind sur les locomoteurs polyvalents. Ce travail reste une preprint arXiv non encore évaluée par les pairs, sans partenaire industriel annoncé ni calendrier de déploiement mentionné : les résultats présentés sont encourageants mais restent à confirmer sur des plateformes plus variées et des scénarios de terrain réels.

RecherchePaper
1 source
Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente
4arXiv cs.RO 

Des priors de diffusion avec contraintes pour une locomotion quadrupède haute fidélité et polyvalente

Une équipe de chercheurs publie Diff-CAST (Diffusion-guided Constraint-Aware Symmetric Tracking), un nouveau cadre de prior de mouvement pour la locomotion quadrupède biomimétique, déposé le 12 mai 2026 en preprint sur arXiv (2605.08804). La méthode substitue les modèles de diffusion aux discriminateurs GAN classiquement utilisés dans les pipelines combinant apprentissage par renforcement (RL) et imitation learning. L'architecture intègre deux composants : le SACC (Symmetric Augmented Command Conditioning), conçu pour corriger les dérives involontaires de cap lors de manœuvres complexes hors distribution, et un bloc de RL contraint (Constrained RL) chargé de garantir la conformité aux limites dynamiques des actionneurs lors du passage sur matériel physique, dans un schéma global baptisé Sim2Re. Le verrou que Diff-CAST cherche à lever est documenté dans la communauté : à mesure que les jeux de données de mouvement grossissent et se diversifient (sources multiples, données non curées), les discriminateurs GAN s'effondrent en mode collapse, incapables de modéliser des distributions multi-modales complexes. Les modèles de diffusion, dont la supériorité sur ce point est établie en génération d'images et de trajectoires, constituent une alternative logique. Si les expériences sur quadrupède réel confirment les résultats annoncés, cela ouvrirait la voie à un scaling massif de datasets hétérogènes sans perte de diversité comportementale, notamment pour des transitions fluides entre marche, trot et récupération. Il convient cependant de souligner que le papier est un preprint non évalué par les pairs, et que le gap sim-to-real reste à valider indépendamment. La locomotion quadrupède à base de RL est un domaine consolidé depuis les travaux d'ANYbotics sur ANYmal et du laboratoire Robotic Systems Lab d'ETH Zurich, prolongés par des équipes de Carnegie Mellon et Berkeley. Unitree (Go2, H1) et Boston Dynamics industrialisent ces méthodes, tandis que le secteur académique cherche à réduire la dépendance aux données de capture de mouvement coûteuses au profit de datasets non curés. Diff-CAST s'inscrit précisément dans cette tendance. Les prochaines étapes attendues sont la publication du code source, des benchmarks standardisés sur des plateformes comme Isaac Lab ou legged gym, et une validation multi-robots au-delà du quadrupède utilisé dans les expériences reportées.

RecherchePaper
1 source