Aller au contenu principal
HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier
RecherchearXiv cs.RO3sem

HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont présenté HumanoidMimicGen (arXiv:2605.27724), une méthode de génération automatique de données d'apprentissage par imitation pour robots humanoïdes devant à la fois marcher et manipuler des objets. Le problème central: la téléopération pour collecter ces démonstrations est lente et coûteuse, particulièrement difficile pour des humanoïdes dont l'espace d'action composite intègre bras, jambes et torse simultanément. Le système adapte des compétences corps entier riches en contacts à partir d'un petit nombre de démonstrations sources vers de nouveaux états et configurations d'objets, en combinant planification de la locomotion et de la manipulation à un ou deux bras. Un benchmark de simulation en 9 tâches de loco-manipulation valide l'approche: les politiques visuomotrices co-entraînées avec les données générées surpassent de 20% celles entraînées uniquement sur des données réelles.

La rareté des données d'entraînement reste le principal verrou au déploiement des humanoïdes en contexte industriel. Les méthodes existantes de génération de données, conçues pour bras fixes, échouent sur les humanoïdes en raison de la coordination complexe entre locomotion et manipulation dans un espace d'état de haute dimension. HumanoidMimicGen apporte un argument concret: multiplier automatiquement les démonstrations à partir de quelques exemples et gagner 20% sur les politiques apprises conteste directement l'hypothèse que les humanoïdes nécessitent obligatoirement des milliers d'heures de téléopération. Pour les décideurs industriels et les intégrateurs, c'est un signal que le goulot des données pourrait être levé par simulation, compressant potentiellement les cycles de développement.

HumanoidMimicGen prolonge directement MimicGen, publié en 2023 pour des bras manipulateurs à base fixe. L'extension aux humanoïdes répond à la pression commerciale entre Figure (modèles 01, 02), Agility Robotics (Digit), 1X, Unitree (G1, H1) et Boston Dynamics (Atlas), tous en quête de méthodes d'apprentissage scalables sans exploser les budgets de téléopération. Du côté recherche, Physical Intelligence (pi0) et NVIDIA (GR00T N2) travaillent également sur des politiques visuomotrices corps entier généralisables. Ce travail demeure un résultat académique pré-publication sur arXiv, sans déploiement industriel annoncé et avec des expériences exclusivement en simulation. La robustesse du transfert sim-to-real, non abordée dans ce papier, constituera l'étape critique avant tout passage en conditions réelles.

À lire aussi

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes
1arXiv cs.RO 

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
2arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source
OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles
3arXiv cs.RO 

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

Une équipe de chercheurs publie sur arXiv (juin 2026) le framework OASIS, une approche pour entraîner des robots humanoïdes à des tâches de loco-manipulation, combinaison de locomotion et de manipulation d'objets, en s'appuyant exclusivement sur des données de simulation. Le système reconstruit automatiquement des assets 3D réalistes à partir d'images du monde réel via un modèle génératif, puis collecte des trajectoires par télé-opération dans ce simulateur. Ces trajectoires sont ensuite augmentées par randomisation de domaine : variations d'éclairage, de textures et de configuration environnementale. Une politique visuomotrice hiérarchique, entraînée sur ces données simulées, est déployée en zero-shot sur un robot humanoïde physique, sans fine-tuning sur données réelles. Les résultats publiés indiquent que cette politique dépasse, sur la majorité des tâches testées, les performances d'une politique entraînée sur des données de télé-opération réelle. Ce résultat, à prendre avec prudence, le preprint n'étant pas encore soumis à peer review, va à contre-courant d'une hypothèse largement répandue : que la qualité des données terrain serait irremplaçable pour la manipulation fine. Le principal facteur explicatif avancé par les auteurs est la couverture plus large des variations d'éclairage et d'environnement dans le rendu simulé, que la collecte physique peine à égaler à grande échelle. Si le résultat se confirme, il soulage considérablement le goulot d'étranglement de la collecte terrain, qui implique aujourd'hui des resets manuels coûteux et une infrastructure dédiée par tâche. La loco-manipulation reste l'un des défis les plus complexes en robotique humanoïde, car elle exige une coordination simultanée du contrôle de marche et de la manipulation d'objets. Des plateformes comme Figure 03, l'Optimus Gen 3 de Tesla ou l'Atlas de Boston Dynamics cherchent des solutions via des approches diverses : imitation learning sur données réelles (pi-0 de Physical Intelligence), politiques VLA (GR00T N2 de Nvidia) ou RL massivement simulé (Unitree). OASIS positionne la simulation augmentée comme alternative crédible à la télé-opération physique, ce qui pourrait accélérer le bootstrapping de nouvelles tâches sans mobiliser de cellules robotiques dédiées. Les prochaines étapes attendues sont une évaluation sur un spectre plus large de tâches industrielles et une soumission à une conférence avec évaluation par les pairs.

RechercheOpinion
1 source
Planification de mouvement en corps entier et contrôle à sécurité critique pour la manipulation aérienne
4arXiv cs.RO 

Planification de mouvement en corps entier et contrôle à sécurité critique pour la manipulation aérienne

Une équipe de chercheurs propose sur arXiv (2511.02342v3) un cadre de planification de mouvement corps entier pour manipulateurs aériens : des drones multirotors équipés de bras robotiques conçus pour opérer dans des espaces encombrés. Le système repose sur une représentation par superquadriques (SQ), surfaces paramétriques différentiables qui modélisent avec précision la géométrie du véhicule, du bras embarqué et des obstacles environnants. Un planificateur à clairance maximale fusionne diagrammes de Voronoï et formulation de variété d'équilibre pour générer des trajectoires lisses, tandis qu'un contrôleur de sécurité applique simultanément les limites de poussée et l'évitement de collision via des fonctions de barrière d'ordre supérieur (high-order CBFs). En simulation, l'approche surpasse les planificateurs par échantillonnage en vitesse, sécurité et fluidité ; des expériences sur une plateforme physique réelle confirment la cohérence des performances sim-to-real. La manipulation aérienne bute depuis longtemps sur le conservatisme des abstractions géométriques classiques : boîtes englobantes et ellipsoïdes surestiment l'encombrement du système, imposent des déviations inutiles et ferment des passages pourtant praticables. Les superquadriques résolvent ce problème en modélisant les surfaces réelles avec une fidélité géométrique fine, sans le coût computationnel des maillages. Pour les intégrateurs et équipes R&D, cela se traduit par des cycles plus courts et la capacité d'opérer dans des espaces confinés, directement pertinents pour l'inspection de structures, la maintenance en hauteur ou l'intervention en zone difficile d'accès. La validation hardware distingue ce travail de nombreuses publications restées cantonnées à la simulation, et les garanties formelles des CBF d'ordre supérieur constituent un argument de poids pour des déploiements en environnements réels. La manipulation aérienne est un champ de recherche actif depuis une décennie, motivé par l'inspection d'éoliennes, de pylônes et d'infrastructures inaccessibles aux robots terrestres. La représentation par superquadriques, issue des travaux de Barr dans les années 1980 et revisitée par la robotique de manipulation terrestre, gagne en traction pour les contextes où la précision géométrique est critique. Parmi les équipes actives sur des problèmes voisins figurent l'ETH Zurich (ASL), le LAAS-CNRS côté français, ainsi que plusieurs groupes nord-américains et asiatiques. Ce preprint ne mentionne aucun partenaire industriel ni horizon de déploiement commercial, ce qui le positionne comme une contribution académique fondamentale avec validation expérimentale.

UELe LAAS-CNRS est explicitement cité parmi les équipes actives sur des problèmes voisins ; cette contribution pourrait alimenter les travaux européens sur la manipulation aérienne pour l'inspection d'infrastructures.

RecherchePaper
1 source