Aller au contenu principal
HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste
RecherchearXiv cs.RO3sem

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2605.26638) HyperSim, un framework bout-en-bout conçu pour transférer des politiques de manipulation robotique de la simulation vers le monde réel. La méthode repose sur trois piliers : la synthèse d'environnements haute fidélité visuelle, la génération de trajectoires adversariales, et un co-entraînement mixte simulation/réel. Validée sur 400 exécutions de tâches en conditions réelles, HyperSim atteint des taux de succès sim-to-real de 80 % avec le modèle ACT et 95 % avec π₀ (le modèle VLA de Physical Intelligence). Les politiques entraînées avec des trajectoires adversariales affichent par ailleurs un taux de complétion supérieur de 35 % sous perturbations physiques dynamiques, par rapport aux baselines sans ce module.

Ces résultats adressent directement l'un des verrous les plus cités dans le déploiement de robots manipulateurs industriels : le sim-to-real gap, c'est-à-dire la dégradation de performance entre une politique entraînée en simulation et son comportement réel. Un taux de 95 % avec π₀ sur des tâches de manipulation représente un niveau de robustesse rarement publié à cette échelle d'évaluation (400 runs, trois métriques granulaires). Pour les intégrateurs et les équipes R&D, cela valide concrètement l'hypothèse que la donnée synthétique, lorsqu'elle est correctement augmentée et diversifiée, peut substituer en grande partie la collecte physique coûteuse. À noter cependant : l'article ne détaille pas les types de tâches ni les objets testés, ce qui limite l'interprétation de la généralité des résultats.

La problématique sim-to-real est au cœur des efforts de plusieurs équipes concurrentes : Google DeepMind (avec RoboVerse et ses pipelines de données synthétiques), Physical Intelligence (dont le modèle π₀ est justement l'un des deux benchmarks utilisés ici), et des laboratoires académiques comme Stanford et CMU. HyperSim se distingue par son approche intégrée plutôt que modulaire, cherchant à traiter simultanément le gap visuel et le gap dynamique. La prochaine étape naturelle, non précisée dans le preprint, serait de tester la généralisation à des plateformes humanoïdes ou des scénarios multi-objet en environnement non structuré.

Impact France/UE

Les laboratoires européens en manipulation robotique (CEA-List, INRIA) pourraient intégrer ce framework pour réduire leur dépendance aux démonstrations physiques coûteuses, sans implication institutionnelle directe.

À lire aussi

NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement
1arXiv cs.RO 

NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement

Une équipe de chercheurs a publié NavRL++, un cadre de navigation autonome par apprentissage par renforcement (RL) conçu spécifiquement pour réduire l'écart entre simulation et déploiement réel. Présenté sur arXiv (2605.15559), le système propose à la fois un nouveau pipeline d'entraînement et de déploiement et une étude empirique systématique qui isole les facteurs dégradant les performances en conditions réelles : bruit de capteurs, échecs de perception, latence système et réponse du contrôleur. Les auteurs ont validé leur approche sur plusieurs plateformes physiques, dont des robots aériens et quadrupèdes, sur des tâches de navigation comme l'exploration et l'inspection, en obtenant un transfert zéro-shot depuis la simulation. Le problème que NavRL++ cherche à résoudre est structurel : la quasi-totalité des travaux récents en navigation par RL se concentre sur la conception du framework d'apprentissage (représentations d'entrée, espaces d'actions, fonctions de récompense), sans analyser rigoureusement pourquoi les politiques entraînées en sim échouent en réel. NavRL++ répond à cela avec deux contributions techniques. La première est le perturbation-aware fine-tuning, une stratégie post-entraînement qui injecte explicitement les perturbations identifiées lors de l'étude empirique pour rendre la politique plus robuste. La seconde est une politique à raisonnement temporel basée sur un Transformer, qui exploite une fenêtre d'observation courte pour lisser le contrôle et compenser la dégradation perceptuelle typique du monde réel. Les résultats quantitatifs montrent des performances supérieures aux baselines RL dans des environnements statiques et dynamiques, et comparables aux planificateurs classiques à optimisation en contexte statique. Le défi du sim-to-real reste l'un des verrous majeurs à la commercialisation de la navigation autonome par RL, notamment pour les robots mobiles en environnements industriels non structurés. La plupart des approches existantes, comme les travaux issus de Berkeley (BADGR, RECON) ou les pipelines de navigation d'Agility Robotics et Boston Dynamics, contournent partiellement le problème via de la simulation photo-réaliste ou du domain randomization intensif. NavRL++ adopte une approche complémentaire : diagnostiquer empiriquement les sources d'écart plutôt que de les masquer. La prochaine étape naturelle sera de tester cette méthodologie sur des flottes de robots en déploiement continu, notamment dans des scénarios entrepôt ou inspection d'infrastructures où la latence et la fiabilité des capteurs sont des contraintes opérationnelles dures.

RecherchePaper
1 source
TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation
2arXiv cs.RO 

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

Des chercheurs ont publié sur arXiv (arXiv:2606.06218) le Torque Adaptation Module (TAM), un module appris qui corrige les commandes de couple envoyées au robot pour aligner son comportement sur celui d'un robot de référence idéal. TAM s'insère entre le contrôleur bas niveau et l'interface couple du robot, et opère via deux composants : un encodeur d'historique proprioceptif, qui compresse les états mécaniques récents en représentation latente, et un adaptateur de couple calculant des corrections résiduelles en temps réel. L'évaluation porte sur un bras Franka Panda réel, en transfert zéro-shot, sur trois tâches de manipulation dynamique : un pushing de boîte guidé par vision (apprentissage par renforcement), un retournement d'objet par imitation comportementale (BC), et un équilibrage balle-sur-plateau par MPC. Le problème adressé est structurant pour l'industrialisation robotique : une politique entraînée sur un robot se dégrade sur une autre instance du même modèle, ou lors d'un changement de charge utile non caractérisée. En manipulation de contact dynamique, un écart de timing de quelques millisecondes suffit à rompre la séquence de contact et faire échouer la tâche. TAM décharge la politique de toute domain randomization sur les paramètres dynamiques du robot, technique qui produit habituellement des comportements trop conservateurs. Sa propriété clé est l'indépendance vis-à-vis de l'espace d'action : les mêmes poids TAM s'appliquent indifféremment à des politiques en cibles articulaires, en cibles d'effecteur terminal, ou en couples directs, ce qui élargit considérablement la portée de réutilisation. En benchmark, TAM surpasse l'identification de système en ligne et la baseline RMA (Rapid Motor Adaptation). La transférabilité inter-robots constitue l'un des obstacles majeurs à la mise à l'échelle des déploiements industriels. Les approches classiques présentent des compromis bien documentés : la domain randomization sacrifie la performance, la system identification exige des données collectées pour chaque robot ou configuration. TAM propose une troisième voie via un préentraînement multi-robot en simulation randomisée, suivi d'un fine-tuning robot-spécifique sans aucune donnée réelle. L'idée d'adaptation par historique proprioceptif avait été popularisée par RMA autour de 2021 pour les robots quadrupèdes ; TAM l'étend à la manipulation de contact en bras articulé, domaine où la dynamique est nettement plus imprévisible. L'article ne mentionne ni partenaire industriel ni timeline de déploiement : il s'agit d'un travail académique dont la validation à plus grande échelle et sur robots variés reste à établir.

RecherchePaper
1 source
Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE
3arXiv cs.RO 

Vers une prédictibilité fiable du transfert simulation-réel pour la locomotion quadrupède robuste à base de MoE

Des chercheurs ont présenté dans un preprint arXiv (2602.00678, version 4) un cadre unifié combinant une politique de locomotion Mixture-of-Experts (MoE) et RoboGauge, une suite d'évaluation prédictive du transfert simulation-réel, appliquée à la locomotion quadrupède. L'architecture MoE déploie un ensemble d'experts spécialisés activés par un mécanisme de gating, chacun modélisant un sous-espace distinct de représentation du terrain et des commandes moteur, en s'appuyant uniquement sur la proprioception (encodeurs articulaires, centrale inertielle), sans caméra ni LiDAR. Les expériences sur un Unitree Go2 ont validé une locomotion robuste sur des terrains non vus à l'entraînement: neige, sable, escaliers, pentes et obstacles de 30 cm. En tests haute vitesse, le robot a atteint 4 m/s, avec apparition spontanée d'une allure à faible écartement latéral que les auteurs associent à une meilleure stabilité dynamique à grande vitesse. L'apport central est RoboGauge, qui génère des métriques proprioceptives multi-dimensionnelles via des tests sim-to-sim couvrant plusieurs terrains, niveaux de difficulté et randomisations de domaine, permettant de sélectionner le meilleur checkpoint de politique MoE sans validation physique répétée. Pour les équipes de R&D et les intégrateurs industriels, cela adresse directement le principal goulot d'étranglement du déploiement de robots marcheurs: le coût et le risque des essais terrain. La robustesse obtenue avec proprioception seule est également significative, car elle conteste l'hypothèse fréquente selon laquelle la vision ou le LiDAR seraient indispensables hors d'environnements contrôlés, élargissant l'espace d'application en milieux non structurés (entrepôts, chantiers, extérieurs). Il convient cependant de noter que les métriques de vitesse et d'obstacle sont issues de tests en conditions choisies, sans données de taux d'échec agrégées sur des déploiements prolongés. Ce travail s'inscrit dans une filière de recherche initiée par ETH Zurich avec ANYmal (commercialisé par ANYbotics) et les équipes de Berkeley sur l'apprentissage agile en locomotion. Le Unitree Go2, vendu autour de 1 600 dollars, est devenu la plateforme de référence académique en raison de son accessibilité. Les concurrents industriels comme Boston Dynamics (Spot) ou les acteurs AMR européens comme Exotec développent des approches similaires de robustesse multi-terrain, bien que leurs validations restent largement propriétaires. Les suites naturelles de ce travail incluent la publication de RoboGauge comme outil de benchmark open-source inter-plateformes et son extension potentielle à d'autres morphologies, notamment les humanoïdes dont le transfert sim-to-real reste un défi ouvert.

UESi RoboGauge est publié en open source, les équipes européennes (ANYbotics, intégrateurs industriels UE) bénéficieraient d'un outil de benchmark standardisé réduisant les coûts de validation physique pour la locomotion quadrupède.

RecherchePaper
1 source
DexSim2Real : transfert simulation-réel guidé par un modèle fondation pour la manipulation dextérique généralisable
4arXiv cs.RO 

DexSim2Real : transfert simulation-réel guidé par un modèle fondation pour la manipulation dextérique généralisable

DexSim2Real est un framework de recherche publié en preprint arXiv (arXiv:2605.05241, mai 2026) visant à réduire le "sim-to-real gap" pour la manipulation dextre -- l'écart de performance entre politiques entraînées en simulation et leur déploiement sur robots réels. L'architecture combine trois modules : FM-DR, qui utilise un modèle de vision-langage comme critique de réalisme visuel pour optimiser automatiquement les paramètres de simulation via l'algorithme CMA-ES ; TVCAP, une politique de contrôle fusionnant données tactiles et visuelles par mécanisme cross-attention pour un transfert zero-shot ; et PSC, un curriculum progressif basé sur la décomposition de tâches par LLM, conçu pour les tâches à fort contact. Évalué en aveugle sur six tâches de manipulation difficiles, le système affiche un taux de succès moyen en conditions réelles de 78,2%, avec un écart sim-to-real résiduel de 8,3% -- contre des performances inférieures revendiquées pour DrEureka et DeXtreme. Le sim-to-real gap est historiquement l'un des freins majeurs à la commercialisation de robots manipulateurs dextres. L'approche différenciante de DexSim2Real consiste à fermer la boucle d'optimisation des paramètres de simulation via un retour visuel direct d'un modèle fondation, là où les méthodes existantes comme DrEureka reposent sur des descriptions textuelles ou une randomisation conçue manuellement. Utiliser un VLM comme juge de réalisme pour guider la randomisation est une piste prometteuse -- mais les résultats restent des benchmarks de laboratoire non encore soumis à revue par les pairs ni validés en déploiement industriel. Les métriques annoncées (78,2% de succès, 8,3% de gap résiduel) devront être reproduites par des équipes indépendantes pour confirmer leur portée réelle. La manipulation dextre sim-to-real est un champ très concurrentiel depuis la démonstration Dactyl d'OpenAI en 2019, avec des acteurs majeurs comme NVIDIA (DrEureka, Isaac Lab) et Meta AI (DeXtreme) en première ligne. DexSim2Real se positionne en unifiant trois leviers -- randomisation guidée par fondation, fusion tactile-visuelle, curriculum adaptatif -- que les travaux antérieurs traitaient séparément. Aucun acteur européen n'est impliqué dans ce travail. Le code n'est pas encore public au moment du preprint ; les prochaines étapes naturelles seraient une soumission à CoRL, IROS ou RSS et, si les résultats se confirment, une ouverture du code pour permettre la reproductibilité.

RecherchePaper
1 source