Aller au contenu principal
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
RecherchearXiv cs.RO2sem

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics.

Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux.

RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

À lire aussi

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
1arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels
2arXiv cs.RO 

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper
1 source
Détection de contact active pour un transfert d'objet robuste de robot à humain
3arXiv cs.RO 

Détection de contact active pour un transfert d'objet robuste de robot à humain

Une équipe de chercheurs propose une méthode de détection de contact active pour fiabiliser les transferts d'objets de robot à humain, publiée en prépublication sur arXiv (2605.04610, mai 2026). Au lieu d'attendre passivement un signal de saisie, le robot génère des micro-mouvements exploratoires et mesure les forces appliquées en retour par l'humain : une saisie ferme produit des forces dans plusieurs directions, un contact accidentel non. Le système repose sur un modèle bayésien linéaire par morceaux qui estime la probabilité de chaque état de contact à partir de ces réponses en force. Testé avec 12 participants sur 30 objets rigides variés, il atteint un taux de succès de 97,5 %, soit plus de 30 points au-dessus des deux approches passives utilisées comme référence. Les applications visées vont du robot d'assistance à domicile (servir un verre) au bloc opératoire (passer un instrument chirurgical). Ce résultat est significatif car la généralisation inter-objets est précisément le point dur des approches passives (tactile, force/couple) : elles peinent à distinguer saisie ferme et contact fortuit face à la diversité des formes, des masses et des comportements humains. L'active sensing force une perturbation contrôlée qui rend les états ambigus séparables. Pour les intégrateurs et les décideurs industriels, l'enjeu est directement lié à la sécurité : dans un environnement collaboratif ou chirurgical, un relâchement prématuré peut causer un incident grave. Un taux de 97,5 % commence à entrer dans la plage exploitable pour des assistants robotiques en conditions réelles, même si le périmètre du test reste limité (objets rigides, 12 sujets, conditions de laboratoire). La question du handover robot-humain est active en recherche depuis plusieurs années, portée notamment par les domaines de l'assistance à la personne et de la chirurgie robotique. Ce papier est une prépublication non encore évaluée par les pairs, et l'abstract ne mentionne ni institution ni partenaire industriel, ce qui rend difficile l'évaluation de sa trajectoire vers un déploiement réel. Aucune intégration commerciale n'est annoncée. Les suites logiques incluent des tests sur objets déformables ou non rigides, une validation en conditions cliniques contrôlées, et une intégration dans des plateformes à retour d'effort comme les cobots ou les mains de robots humanoïdes qui commencent à offrir les interfaces mécaniques nécessaires à ce type de dialogue haptique.

RecherchePaper
1 source
Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties
4arXiv cs.RO 

Transfert de compétences entre géométries différentes en une seule démonstration par décomposition en parties

Des chercheurs ont publié le 20 avril 2026 (arXiv:2604.15455) une méthode permettant à un robot d'apprendre un geste à partir d'une seule démonstration, puis de le transférer à des objets de formes radicalement différentes, sans nouvel entraînement. L'approche repose sur une décomposition sémantique : plutôt que de comparer un objet entier à un autre, le système identifie les parties fonctionnelles pertinentes (poignée, bord, surface de contact) et transfère les points d'interaction entre les pièces homologues de l'objet de démonstration et de l'objet cible. Des modèles génératifs de formes à faible coût de données construisent automatiquement une fonction objectif qui optimise l'alignement de ces points sur les parties critiques pour l'exécution du skill. Les validations couvrent plusieurs skills et familles d'objets, en simulation et en environnement réel. Ce résultat est notable car il s'attaque directement au "demo-to-reality gap" géométrique : la majorité des systèmes actuels de transfert de skills, y compris ceux basés sur des Visual Language Action models (VLA), peinent dès que la forme de l'objet cible s'écarte significativement de celle vue lors de l'apprentissage. La décomposition en parties découple la variabilité de forme globale de la logique d'interaction locale, ce qui augmente mécaniquement le domaine de généralisation sans multiplier les données d'entraînement. Pour un intégrateur industriel ou un équipementier travaillant sur des lignes multi-références, c'est une piste concrète pour réduire le coût de re-programmation à chaque changement de référence produit. Le problème du transfert de skills en robotique est étudié depuis des années sous différents angles : apprentissage par démonstration (LfD), correspondances fonctionnelles entre objets, ou plus récemment les VLA pré-entraînés sur larges corpus vidéo (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA). Cette approche se positionne dans la lignée des travaux sur le raisonnement compositionnel, qui cherchent à représenter les objets non comme des blobs de points mais comme des assemblages de parties sémantiques, une direction explorée également par des groupes comme le MIT CSAIL et Stanford. Aucun partenariat industriel ni déploiement terrain n'est annoncé à ce stade : il s'agit d'une contribution académique, prometteuse mais encore à valider sur des skills complexes et des environnements fortement non structurés.

RechercheActu
1 source