Aller au contenu principal
Apprendre à piloter en quelques minutes : Infoprop Dyna sur le Mini Wheelbot
RecherchearXiv cs.RO1sem

Apprendre à piloter en quelques minutes : Infoprop Dyna sur le Mini Wheelbot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en mai 2025 sur arXiv (2605.01096) les résultats d'une expérience dans laquelle le Mini Wheelbot, un robot unicycle sous-actionné aux dynamiques fortement non linéaires et instables, apprend à effectuer des tours de piste en seulement 11 minutes d'interactions dans le monde réel. Le système repose sur Infoprop Dyna, un framework de reinforcement learning basé sur des modèles (MBRL) intégrant une estimation explicite de l'incertitude. Aucun simulateur physique n'a été utilisé : l'entraînement se fait entièrement à partir de données collectées en conditions réelles, sans domain randomization.

Ce résultat interpelle car la quasi-totalité des approches RL en robotique repose aujourd'hui sur des simulateurs haute-fidélité pour accélérer l'entraînement et garantir le transfert sim-to-real. Cette dépendance représente un coût d'ingénierie significatif et introduit un "reality gap" particulièrement difficile à combler pour des dynamiques rapides ou mal modélisées. Le fait qu'un robot à dynamique instable atteigne des performances de course en moins d'un quart d'heure de données réelles suggère qu'Infoprop Dyna peut court-circuiter cette étape, ce qui serait une avancée tangible pour les équipes sans les ressources nécessaires pour construire des simulateurs précis. À noter : l'abstract ne précise ni la longueur du circuit ni la complexité de la trajectoire, ce qui limite la comparabilité du chiffre des 11 minutes.

Le cadre MBRL uncertainty-aware n'est pas nouveau en soi, mais son application à un unicycle sous-actionné, réputé parmi les plateformes les plus difficiles à stabiliser, constitue un test de robustesse sérieux. Les approches concurrentes en apprentissage réel incluent PETS, POLO ou DreamerV3, qui cherchent également à réduire la dépendance aux données simulées. La prochaine étape naturelle serait de tester Infoprop Dyna sur des plateformes plus rapides ou en présence de perturbations externes, pour déterminer si la convergence en 11 minutes reste reproductible hors conditions laboratoire contrôlées.

Dans nos dossiers

À lire aussi

Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude
1arXiv cs.RO 

Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude

Une équipe de chercheurs a publié sur arXiv (réf. 2602.22474) un cadre nommé UPS (Uncertainty-Aware Policy Steering), conçu pour adapter le comportement d'un robot au moment du déploiement sans nécessiter de réentraînement complet. Le "policy steering" consiste à utiliser un vérificateur appris qui analyse les échantillons d'actions proposés par une politique pré-entraînée (typiquement une diffusion policy) et ne retient que celles jugées conformes à la tâche. UPS utilise un Vision-Language Model (VLM) comme vérificateur général, mais y ajoute une calibration par prédiction conforme (conformal prediction) pour corriger le biais de surconfiance caractéristique de ces modèles. Le système distingue trois régimes de décision : exécuter une action avec haute confiance, demander une clarification en langage naturel si la consigne est ambiguë, ou solliciter une intervention humaine sur l'action lorsque la politique de base est jugée incapable d'exécuter la tâche. Des expériences ont été menées en simulation et sur plateforme physique. Le problème de la surconfiance des VLMs est concret et rarement traité dans la littérature sur le déploiement robotique. En pratique, un vérificateur qui ne sait pas qu'il ne sait pas valide des actions incorrectes ou bloque des actions valides, dégradant directement la performance opérationnelle. UPS apporte une garantie statistique formelle sur le choix de stratégie, ce qui est significatif pour des intégrateurs industriels qui ont besoin de bornes de fiabilité chiffrées. La composante de residual learning permet au système de progresser à partir des interventions collectées en déploiement, avec un objectif explicite de minimiser le feedback humain coûteux. Cette combinaison calibration plus apprentissage continu différencie UPS des pipelines d'apprentissage actif classiques, qui ne pondèrent pas le coût réel des interruptions. Le policy steering s'est accéléré avec la disponibilité de politiques pré-entraînées génériques comme la diffusion policy, ACT ou pi-0, et de VLMs capables de raisonnement visuel. Les approches précédentes (SayCan, inner-monologue, RT-2) traitaient généralement la planification de haut niveau et l'exécution de bas niveau comme des modules séparés, sans calibration jointe de l'incertitude. UPS tente de combler ce gap en traitant simultanément l'incertitude sémantique et l'incertitude d'action dans un seul cadre probabiliste avec garanties statistiques. Les concurrents directs incluent les frameworks human-in-the-loop comme TAMER ou les approches de gating robotique d'OpenVLA, qui s'appuient sur des heuristiques moins formelles pour décider quand escalader vers un opérateur. Les travaux sont portés par une équipe académique (site de démonstration : jessie-yuan.github.io/ups) ; aucun partenaire industriel ni calendrier de transfert n'est annoncé à ce stade.

RechercheOpinion
1 source
Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique
2arXiv cs.RO 

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes. L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle. La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

RecherchePaper
1 source
Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes
3arXiv cs.RO 

Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes

Une équipe de chercheurs a publié fin avril 2026 FLASH (Fast Learning via GPU-Accelerated Simulation), un simulateur physique conçu nativement pour GPU, ciblant la manipulation d'objets déformables en contact riche. Le framework repose sur un solveur NCP (Nonlinear Complementarity Problem) qui impose simultanément les contraintes de contact et de déformation, redessiné de zéro pour exploiter le parallélisme fin des architectures GPU modernes, incluant la gestion optimisée des collisions et les layouts mémoire adaptés. Sur un seul RTX 5090, FLASH atteint plus de 3 millions de degrés de liberté simulés à 30 images par seconde. Des politiques entraînées exclusivement sur données synthétiques générées par FLASH, en quelques minutes d'entraînement, permettent un transfert sim-to-réel zéro-shot validé sur robots physiques pour des tâches de pliage de serviettes et de vêtements, sans aucune démonstration en conditions réelles. L'enjeu n'est pas anodin : la manipulation d'objets déformables représente l'un des derniers grands verrous du robot learning industriel. Les frameworks existants comme Isaac Sim (NVIDIA) excellent sur la cinématique rigide et la locomotion, mais les matériaux souples imposent des géométries en mutation continue, des milliers de vertices et des contraintes de contact instables qui rendent la simulation précise et rapide quasi incompatible. FLASH contourne ce problème non pas en portant un solveur SIMD classique sur GPU, mais en réécrivant entièrement le moteur physique autour des primitives GPU. Si les résultats de transfert annoncés se confirment hors des tâches de pliage sélectionnées dans le papier, les intégrateurs ciblant le textile, la logistique e-commerce ou la préparation alimentaire disposeraient d'un pipeline d'entraînement pratique sans collecte de données terrain. Le problème du sim-to-real gap pour le déformable est documenté depuis plus d'une décennie, sans solution généraliste convaincante. MuJoCo, Warp et Genesis ont chacun progressé sur la simulation souple, mais aucun n'avait démontré ce niveau de throughput combiné à un transfert zéro-shot sur manipulation contact-riche. FLASH s'inscrit dans une tendance lourde de 2025-2026 : repenser les moteurs physiques pour la scalabilité GPU plutôt que d'adapter des architectures CPU legacy. Les auteurs valident uniquement sur pliage de textile, ce qui laisse ouverte la question de généralisation à d'autres déformables (câbles, mousses, aliments). Aucune date de release publique du framework ni de partenariat industriel n'est mentionnée dans le preprint.

RecherchePaper
1 source
Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique
4arXiv cs.RO 

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

RecherchePaper
1 source