Aller au contenu principal
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
IA physiquearXiv cs.RO2sem

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes.

L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle.

Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

À lire aussi

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
1arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde
2arXiv cs.RO 

ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (2606.16542) une méthode baptisée ADAPT (Analytical Disturbance-Aware Policy Training), destinée à améliorer la robustesse locomotrice des robots humanoïdes soumis à des perturbations externes. Le système a été validé sur un Unitree G1 dans trois scénarios représentatifs : poussées au niveau du torse, perturbations en posture statique, et charges asymétriques appliquées aux mains. Dans chaque cas, ADAPT surpasse une politique de référence basée uniquement sur la proprioception (capteurs internes articulaires), avec un meilleur suivi de vitesse et une meilleure stabilité, y compris face à des perturbations hors distribution, c'est-à-dire non rencontrées lors de l'entraînement. La méthode n'exige aucun capteur de force/couple externe : elle s'appuie uniquement sur la dynamique interne du robot pour estimer en ligne les résidus de force et de couple appliqués au corps entier. L'intérêt technique d'ADAPT tient à son observateur de perturbations analytique, fondé sur la physique du corps rigide plutôt que sur un réseau de neurones ou une large randomisation de domaine. Les approches existantes présentent chacune un défaut structurel : la randomisation de domaine dégrade la précision, les objectifs de force spécifiques à une tâche limitent la transférabilité, et les estimateurs appris depuis l'historique de mouvement peinent hors distribution. ADAPT contourne ces compromis en fournissant à la politique un signal d'entrée explicite et physiquement fondé sur les forces et couples perturbateurs estimés, ce qui lui permet de se généraliser à des scénarios jamais vus. Un bénéfice secondaire notable : en pénalisant les perturbations inférées au niveau des articulations inférieures, le système favorise une locomotion plus légère, réduisant les impacts au sol, ce qui peut prolonger la durée de vie mécanique et améliorer la discrétion sonore en milieu de travail. Le Unitree G1 est une plateforme humanoïde commerciale abordable, largement utilisée dans la recherche sur la locomotion apprise, ce qui confère à ces résultats une portée pratique directe. Ce travail s'inscrit dans une tendance plus large où les laboratoires cherchent à combler le fossé sim-to-real sans ajouter de capteurs coûteux, une contrainte forte pour les déploiements industriels à grande échelle. Côté concurrence, des approches similaires ont été explorées par des équipes travaillant sur Boston Dynamics Atlas, Agility Robotics Digit et les humanoïdes Figure et 1X, mais souvent avec des capteurs de force dédiés. ADAPT représente une direction sensorless qui, si elle se confirme sur d'autres plateformes, pourrait simplifier l'intégration matérielle. L'article étant un preprint arXiv non encore évalué par les pairs, la reproductibilité reste à confirmer indépendamment, et les conditions exactes des expériences (vitesses testées, amplitude des poussées) ne sont pas précisées dans le résumé disponible.

IA physiquePaper
1 source
MotionVLA : un modèle vision-langage-action pour les robots humanoïdes
3arXiv cs.RO 

MotionVLA : un modèle vision-langage-action pour les robots humanoïdes

Une équipe de l'AIGeeksGroup a publié le 18 juin 2026 sur arXiv (2606.15142) MotionVLA, un modèle de type Vision-Language-Action conçu pour générer du mouvement humanoïde réaliste à partir d'images de scène et d'instructions textuelles. Le coeur de la contribution repose sur DSFT (Dual-Stream Frequency Tokenizer), un tokeniseur qui décompose le signal de mouvement en deux flux distincts : un flux Base capturant la sémantique de pose basse fréquence, et un flux Phys encodant la dynamique physique haute fréquence. Cette séparation s'appuie sur une analyse en transformée en cosinus discrète (DCT) du corpus HumanML3D, qui révèle un déséquilibre concret : cinq coefficients DCT suffisent à couvrir 93 % de l'énergie des positions articulaires, mais seulement 37 % de l'énergie des vélocités. Les deux flux sont compressés indépendamment par troncature DCT et encodage BPE, puis réinjectés dans un transformeur autorégressif basé sur Qwen3.5 2B. Sur les benchmarks HumanML3D et MBench, MotionVLA réduit l'écart de diversité avec les données réelles de plus de 50 % et améliore la cohérence mouvement-condition de 3,8 %. Ce résultat pointe une limite structurelle des approches à codebook unique, qui dominent actuellement la génération de mouvement humanoïde : en forçant des signaux hétérogènes dans un espace de quantification commun, ces méthodes sous-représentent systématiquement les composantes dynamiques hautes fréquences au profit de la géométrie de pose. Pour les équipes travaillant sur le contrôle de robots humanoïdes ou la synthèse d'animation procédurale, cela signifie que la qualité du mouvement généré peut sembler plausible en posture statique mais manquer de naturel en transition. L'architecture duale de MotionVLA, malgré un backbone léger de 2 milliards de paramètres, obtient des gains mesurables sans augmenter significativement le coût de calcul. MotionVLA s'inscrit dans un mouvement de recherche plus large qui adapte les VLA, initialement développés pour le contrôle robotique visuomoteur, à la génération de comportement humanoïde. Le modèle s'appuie sur Qwen3.5, la famille de modèles open-weight d'Alibaba, et le code source est disponible sur GitHub (AIGeeksGroup/MotionVLA). À ce stade, il s'agit exclusivement d'un résultat de recherche académique évalué sur des benchmarks synthétiques standard, sans déploiement industriel ni partenariat hardware annoncé. Les acteurs comme Figure AI, 1X, Agility Robotics ou Fourier Intelligence, qui investissent dans la génération de mouvement pour leurs humanoïdes, suivent de près ce type de travaux, même si le chemin du benchmark de laboratoire vers un déploiement sim-to-real reste non démontré ici.

IA physiqueOpinion
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
4arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source