Aller au contenu principal
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
RecherchearXiv cs.RO2j

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement.

L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers.

Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

Impact France/UE

La traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

À lire aussi

DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle
1arXiv cs.RO 

DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle

Des chercheurs ont publié DreamPolicy (arXiv:2505.18780, mai 2025), un cadre de locomotion humanoïde conçu pour maîtriser des terrains variés avec une seule politique de contrôle. Son composant central est un modèle du monde à diffusion autorégressive, entraîné sur des trajectoires agrégées issues de plusieurs politiques spécialisées par type de terrain. Ce modèle génère des trajectoires futures physiquement plausibles qui guident une politique conditionnée, sans ingénierie manuelle des fonctions de récompense. En simulation, DreamPolicy surpasse la meilleure baseline de 27% sur des terrains composites jamais vus à l'entraînement, et de 38% sur des terrains combinés. Le framework est conçu pour scaler avec la taille du dataset offline: plus les données s'accumulent, plus le modèle de diffusion acquiert de compétences locomotrices. La contribution principale est de rompre le verrou "une tâche, une politique" qui freine les systèmes humanoïdes actuels. Les méthodes dominantes reposent sur la distillation de politiques enseignantes spécialisées en une politique étudiante unifiée; ce paradigme capture des primitives de base mais échoue à les composer organiquement face à des environnements composites hors distribution. DreamPolicy y substitue un modèle du monde qui capture des compétences locomotrices généralisables, autorisant un transfert zero-shot vers des terrains inédits. Il convient néanmoins de nuancer: les gains relatifs annoncés (27%, 38%) sont mesurés en simulation uniquement, sans détail sur les taux absolus de succès ni les conditions précises des benchmarks, ce qui limite les comparaisons directes avec d'autres systèmes publiés. Ce travail s'inscrit dans une tendance portée par DreamerV3 (Google DeepMind) et le RL model-based, ici appliquée à la locomotion humanoïde scalable. Figure, Agility Robotics (Amazon), Unitree, Apptronik et Boston Dynamics se livrent une course intensive sur ce segment; en Europe, Wandercraft (France) travaille sur la locomotion bipeède thérapeutique et Enchanted Tools sur des humanoïdes de service. DreamPolicy reste une contribution de recherche pure: aucun déploiement hardware ni partenariat industriel n'est mentionné. La validation sur robot physique constitue l'étape suivante naturelle, avec les défis de sim-to-real gap que les approches à diffusion n'ont pas encore pleinement résolus à grande échelle.

UEImpact indirect : les avancées en locomotion unifiée zero-shot pourraient alimenter les travaux de Wandercraft (France) sur la bipédie thérapeutique, mais aucun lien institutionnel ou déploiement européen n'est mentionné.

RecherchePaper
1 source
RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde
2arXiv cs.RO 

RPG : commutation robuste de politiques pour des transitions fluides entre compétences en combat humanoïde

Une équipe de chercheurs a publié le 21 avril 2026 sur arXiv (2604.21355) un framework baptisé RPG (Robust Policy Gating), conçu pour permettre à des robots humanoïdes d'enchaîner plusieurs compétences de combat dynamique sans instabilité. L'approche repose sur une politique unifiée entraînée avec deux mécanismes de randomisation : la randomisation des transitions de mouvement, qui expose la politique à des états initiaux et terminaux variés entre compétences, et la randomisation temporelle, qui rend l'agent robuste aux coupures imprévises dans la séquence de mouvements. La pipeline de contrôle intègre la locomotion (marche, course) avec les compétences de combat, permettant théoriquement des séquences de durée arbitraire. Le système a été validé en simulation extensive, puis déployé sur le robot humanoïde Unitree G1, la plateforme à 23 DDL du constructeur chinois Unitree Robotics. Le problème central que RPG adresse est connu dans le domaine sous le nom de "skill transition gap" : lorsqu'un agent bascule d'une politique spécialisée à une autre, les états terminaux de la première ne correspondent pas aux états initiaux supposés de la seconde, produisant des comportements hors domaine, des chutes ou des mouvements saccadés. Les approches concurrentes utilisent soit une commutation entre politiques mono-compétence, soit une politique généraliste qui imite des motion clips de référence -- les deux souffrent de ce décalage. RPG propose une solution d'entraînement plutôt que d'architecture, ce qui est notable : la robustesse aux transitions est injectée pendant la phase d'apprentissage, pas via un mécanisme de gating à l'inférence. L'absence de métriques quantitatives dans la publication (temps de cycle, taux de chute, nombre de transitions testées) limite cependant la comparaison directe avec d'autres travaux. RPG s'inscrit dans une vague active de recherche sur le contrôle corps entier des humanoïdes pour des tâches hautement dynamiques, un domaine où les laboratoires UCB, CMU et Stanford publient régulièrement depuis 2023. L'utilisation du G1 comme plateforme de validation est cohérente avec sa popularité croissante en recherche académique, notamment grâce à son coût inférieur à celui des plateformes concurrentes (Boston Dynamics Atlas, Agility Digit). Sur le plan commercial, des acteurs comme Figure AI, 1X Technologies ou Apptronik ciblent des tâches répétitives en entrepôt plutôt que le combat, mais les techniques de transition de compétences développées ici sont directement transposables aux scénarios industriels nécessitant des enchaînements fluides de manipulation et de locomotion. La prochaine étape naturelle serait une évaluation quantitative en conditions adversariales réelles, ainsi qu'un transfert vers des tâches moins "spectaculaires" mais plus proches du déploiement B2B.

RecherchePaper
1 source
Cartes de coût conditionnées à la tâche pour la locomotion sur pattes
3arXiv cs.RO 

Cartes de coût conditionnées à la tâche pour la locomotion sur pattes

Une équipe de recherche a publié sur arXiv (identifiant 2605.00261, mai 2025) une méthode permettant aux robots à pattes de naviguer plus fiablement sur des terrains non structurés en modélisant l'incertitude épistémique dans la prédiction des appuis. Le principe : un modèle appris, entraîné à prédire les points de contact viables au sol, intègre désormais une estimation de sa propre incertitude, conditionnée à la fois sur les relevés de hauteur du terrain et sur la commande de mouvement transmise au robot. Testé en simulation et en conditions réelles, le système distingue les zones de terrain "connues" (in-distribution) des zones hors distribution (OOD), c'est-à-dire absentes des données d'entraînement. Cette incertitude est intégrée dans un cadre unifié de génération de costmaps, directement exploitable par un planificateur de trajectoire. Résultat principal : jusqu'à 37 % de réduction de l'erreur de faisabilité en simulation, avec un comportement de planification plus robuste qu'un modèle reposant uniquement sur la géométrie du terrain. L'enjeu est concret pour les intégrateurs de robots à pattes en milieu industriel. La plupart des systèmes appris actuels échouent silencieusement sur des terrains hors distribution : le robot tente quand même le franchissement, avec des risques de chute ou de blocage. En rendant l'incertitude explicite et traduite en coût dans le planificateur, le système peut délibérément éviter les zones qu'il ne reconnaît pas. C'est une avancée pour le déploiement en environnements non contrôlés, là où il est impossible de couvrir exhaustivement tous les types de surface lors de l'entraînement. La méthode offre aussi une voie de sortie au problème des datasets limités : un modèle entraîné sur une distribution restreinte peut opérer en sécurité en sachant délimiter son propre domaine de compétence. Cette problématique s'inscrit dans un effort de recherche plus large visant à combler le gap sim-to-real en locomotion à pattes, défi qui mobilise des acteurs comme ANYbotics (dont l'ANYmal est déployé en inspection industrielle), Boston Dynamics (Spot) ou Unitree Robotics. La tendance dominante jusqu'ici consistait à accumuler davantage de données et à diversifier les terrains de simulation. L'approche par quantification d'incertitude offre une voie complémentaire, particulièrement adaptée aux déploiements à domaine restreint où la collecte de données exhaustive est coûteuse. Les auteurs ne mentionnent ni timeline de commercialisation ni partenariat industriel identifié : il s'agit d'un preprint académique, sans validation sur robot commercial nommé.

RecherchePaper
1 source
Tests de robustesse par recherche pour un logiciel de robotique de reconditionnement d'ordinateurs portables
4arXiv cs.RO 

Tests de robustesse par recherche pour un logiciel de robotique de reconditionnement d'ordinateurs portables

Le Danish Technological Institute (DTI), centre de recherche appliquée danois spécialisé dans le transfert technologique vers l'industrie et le secteur public, publie PROBE, une méthode de test de robustesse pour les logiciels robotiques utilisés dans le reconditionnement de laptops. L'approche cible les modèles de détection d'objets embarqués dans ces robots, chargés d'identifier des vis pour le démontage ou des autocollants à retirer, dont les défaillances peuvent entraîner des dommages physiques aux appareils. PROBE s'appuie sur NSGA-II, un algorithme d'optimisation multi-objectifs évolutionnaire, pour explorer de manière systématique l'espace des perturbations d'images : l'objectif est de trouver les modifications minimales et localisées qui font échouer le modèle de détection, en équilibrant l'intensité de la perturbation, sa localisation spatiale et son effet sur le score de confiance du modèle. Les résultats quantitatifs sont significatifs : PROBE est 3 à 7 fois plus efficace qu'une recherche aléatoire pour générer des perturbations induisant des échecs, tout en utilisant des perturbations de magnitude plus faible, ce qui signifie qu'il expose des vulnérabilités réelles plutôt que des cas limites artificiels. Fait notable, les perturbations générées se transfèrent entre modèles différents, suggérant qu'elles révèlent des fragilités structurelles communes et non des artefacts liés à une architecture particulière. L'article introduit également l'usage de relations métamorphiques pour évaluer la stabilité des modèles même dans des cas non-défaillants, enrichissant le diagnostic de robustesse au-delà de la simple détection de pannes. Pour un intégrateur déployant des robots dans une chaîne de reconditionnement, cette approche offre un cadre de qualification objective des modèles de vision avant mise en production industrielle. Ce travail s'inscrit dans la trajectoire du DTI sur la robotique appliquée à l'économie circulaire, en lien direct avec le Plan d'action européen pour l'économie circulaire. Le reconditionnement automatisé de matériel informatique reste un segment de niche mais en croissance, où la précision de la détection d'objets est critique : une vis mal localisée peut endommager irrémédiablement une carte mère. Côté recherche, PROBE rejoint un corpus croissant de travaux sur les tests adversariaux pour systèmes embarqués, un domaine où les approches search-based testing (SBST) gagnent du terrain face aux méthodes purement statistiques. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un résultat académique (arXiv:2605.07530), sans timeline de productisation précisée.

UELe DTI, centre de recherche danois (EU), propose un cadre de qualification objectif pour les modèles de vision embarqués dans les robots de reconditionnement, en alignement avec le Plan d'action européen pour l'économie circulaire.

RecherchePaper
1 source