Aller au contenu principal
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
RecherchearXiv cs.RO3sem

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution.

Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique.

Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

Dans nos dossiers

À lire aussi

Revue complète des modèles du monde pour l'apprentissage robotique
1arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
2arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source
Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides
3arXiv cs.RO 

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Une équipe de recherche a publié sur arXiv (arXiv:2512.08411v2, décembre 2025) le Prismatic World Model (PRISM-WM), une architecture de modèle du monde destinée à améliorer la planification dans les systèmes robotiques à dynamiques hybrides. Le problème central que PRISM-WM cherche à résoudre est structurel : les mouvements continus sont régulièrement interrompus par des événements discrets, contacts, impacts, transitions de phases (vol vs appui, glissement vs adhérence), qui créent des discontinuités difficiles à modéliser. Les architectures classiques à réseaux neuronaux monolithiques, comme les modèles latents de type RSSM ou DreamerV3, imposent une continuité globale qui lisse ces transitions et génère des erreurs cumulatives lors des simulations à long horizon (rollouts), rendant la planification peu fiable aux frontières physiques. PRISM-WM y répond par un cadre Mixture-of-Experts (MoE) contextuel : un mécanisme de gating identifie implicitement le mode physique courant, et des experts spécialisés prédisent la dynamique de transition associée. Une contrainte d'orthogonalisation latente force la diversité des experts, prévenant l'effondrement de modes. Les expériences portent sur des benchmarks de contrôle continu incluant des humanoïdes haute dimension et des configurations multi-tâches, couplés à l'algorithme d'optimisation de trajectoires TD-MPC. Les résultats montrent que PRISM-WM réduit le drift en simulation lors des rollouts étendus, offrant un substrat de haute fidélité pour les algorithmes d'optimisation de trajectoires. Pour les équipes de contrôle en robotique humanoïde, cela adresse directement le gap simulation-réalité lié à la gestion des contacts, une limitation structurelle des approches model-based existantes. La décomposition en primitives composables ouvre aussi une piste vers des architectures plus interprétables, un enjeu concret pour les déploiements industriels où la robustesse aux variations de terrain ou de tâche est critique. PRISM-WM s'inscrit dans la dynamique des world models pour la robotique, domaine en forte progression depuis les travaux de Hafner et al. sur DreamerV3 et les avancées de TD-MPC sur des tâches de locomotion complexe. L'approche MoE transposée à la dynamique physique rejoint des tendances observées dans les grands modèles de langage (Mixtral, GPT-4). Il n'est pas associé à une entreprise commerciale identifiée ; il s'agit d'une contribution académique pure, sans pilote industriel annoncé. La prochaine étape logique serait une validation sur hardware réel, notamment sur des plateformes humanoïdes où la gestion des contacts reste un verrou technique central de la sim-to-real transfer.

RecherchePaper
1 source
Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques
4arXiv cs.RO 

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion
1 source