Aller au contenu principal
Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique
RecherchearXiv cs.RO2sem

Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie BARD (Batched Articulated Rigid-body Dynamics), une implémentation PyTorch des algorithmes de dynamique corps rigides de Featherstone, conçue pour l'évaluation GPU en batch et la différentiation automatique. Sur cinq modèles de robots allant de 7 à 23 degrés de liberté, BARD atteint un débit jusqu'à 64 fois supérieur à Pinocchio pour la cinématique directe et 63 fois supérieur pour les jacobiens, à une taille de batch de 4096 sur un NVIDIA H200. La bibliothèque repose sur trois choix d'architecture : un cache à évaluation paresseuse par niveaux qui évite les traversées redondantes de l'arbre cinématique, des transformées de joints sans multiplication matricielle grâce à des constantes de Rodrigues précalculées, et une propagation parallèle par niveaux qui ramène les opérations séquentielles à des étapes batchées proportionnelles à la profondeur de l'arbre. La précision numérique est validée par identification de système sur un manipulateur 7-DOF, avec une erreur moyenne de 1,24 % sur les masses des segments sous 5 % de bruit sur les couples. Intégré dans le pipeline d'entraînement Isaac Lab AMP pour un quadrupède à colonne vertébrale de 11 DOF avec 4096 environnements parallèles, BARD est 8,5 fois plus rapide que Pinocchio et 2 fois plus rapide qu'ADAM pour le calcul de dynamique en boucle d'entraînement. Le code est disponible en open source sur GitHub.

L'enjeu est structurel : à mesure que le contrôle robotique migre vers le reinforcement learning à grande échelle avec calcul de dynamique en boucle (in-loop), les librairies CPU comme Pinocchio deviennent un goulot d'étranglement dans les pipelines GPU. BARD élimine ce découplage CPU/GPU sans sacrifier la précision ni la différentiabilité, deux propriétés critiques pour l'optimisation par gradient. Pour les équipes qui entraînent des politiques de locomotion ou de manipulation sur des milliers d'environnements parallèles, ce gain de débit se traduit directement en temps de calcul réduit et en capacité à itérer plus vite sur l'architecture des récompenses et des politiques.

Pinocchio reste la référence académique et industrielle pour la dynamique articulée depuis plus de dix ans, mais son architecture CPU-first n'a pas été pensée pour les pipelines d'apprentissage modernes sur GPU. ADAM, autre alternative GPU, est ici surpassé d'un facteur 2 en contexte in-loop. BARD se positionne donc entre les simulateurs physiques complets comme Isaac Sim ou MuJoCo MJX et les librairies de dynamique symbolique, en ciblant explicitement l'usage comme composant différentiable dans une boucle d'entraînement. L'article est une prépublication arXiv (2605.31481), non encore soumise à révision par les pairs, et les benchmarks présentés portent sur des scénarios contrôlés : des tests en conditions de déploiement réel, notamment sur des robots industriels ou des plateformes commerciales, restent à venir.

Impact France/UE

BARD surpasse directement Pinocchio, bibliothèque de dynamique articulée développée et maintenue par LAAS-CNRS et INRIA, ce qui constitue un signal fort pour les équipes de recherche robotique françaises qui l'utilisent comme référence dans leurs pipelines d'apprentissage par renforcement.

À lire aussi

Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique
1arXiv cs.RO 

Elastic ODYN : optimisation différentiable pour le contrôle et l'apprentissage en robotique

Une équipe de chercheurs publie sur arXiv en juin 2026 (arXiv:2606.16564) Elastic ODYN, un solveur de programmes quadratiques (QP) pour le contrôle robotique sous infaisabilité. Les contrôleurs de robots, humanoïdes comme quadrupèdes, formulent leurs commandes comme des QP soumis à des contraintes de forces de contact, de limites articulaires et d'objectifs de tâche. Lorsque ces contraintes se contredisent, par erreur de modèle ou contact dégénéré, les solveurs classiques échouent ou génèrent des gradients instables. Elastic ODYN adopte une relaxation élastique ℓ₂ dans un cadre primal-dual sans point intérieur : le problème reste bien posé en toute condition, le solveur converge vers la solution la plus proche du faisable et supporte le démarrage à chaud. Deux extensions complètent le noyau : Elastic OdynLayer, une couche QP différentiable à gradients stables, et Elastic OdynSQP, une méthode SQP gérant les sous-problèmes inconsistants en contrôle optimal. Les benchmarks couvrent des QP standards, la mécanique de contact singulière, l'identification paramétrique différentiable, et l'optimisation de trajectoires sur quadrupèdes et humanoïdes. L'enjeu est direct pour les intégrateurs de contrôle temps réel et les équipes qui entraînent des politiques par apprentissage. L'infaisabilité n'est pas un cas marginal : un humanoïde sur surface irrégulière, un manipulateur recevant des consignes conflictuelles, ou un algorithme model-based en transition de contact y sont régulièrement confrontés. Jusqu'ici, les développeurs recouraient à des relaxations manuelles ad hoc ou acceptaient des crashs de simulation. La couche différentiable d'Elastic ODYN permet d'entraîner des politiques de contrôle de bout en bout sans que l'infaisabilité intermittente interrompe la descente de gradient, un avantage direct pour les architectures VLA (Vision-Language-Action) et les pipelines sim-to-real. Les solveurs courants comme OSQP, ProxQP et ECOS intègrent déjà des mécanismes de relaxation, mais leurs formulations présentent des discontinuités de gradient incompatibles avec la différentiation automatique. Les couches QP différentiables existantes, cvxpylayers et qpth, supposent la faisabilité et dégénèrent hors de cette hypothèse. Elastic ODYN couvre donc un créneau à l'intersection des deux. Ce preprint arXiv n'a pas encore passé la révision par les pairs, aucun partenariat industriel ni calendrier de déploiement n'est mentionné, et les performances revendiquées restent à confirmer sur des benchmarks industriels indépendants.

RecherchePaper
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
2arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
3arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif
4arXiv cs.RO 

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

Des chercheurs ont proposé un modèle de dynamique contextuel fondé sur les équations différentielles ordinaires neuronales (Neural ODE) pour améliorer le contrôle de robots opérant dans des environnements incertains et variables. Le travail, déposé en juin 2026 sur arXiv (référence 2606.15469), cible les perturbations que les contrôleurs classiques peinent à absorber: variations des conditions de contact, effets aérodynamiques et perturbations externes imprévues. La méthode repose sur une procédure d'entraînement en deux phases: le modèle inspecte l'historique des états et des actions du robot pour inférer les facteurs environnementaux courants, sans capteurs dédiés supplémentaires. La compatibilité avec le MPC (Model Predictive Control) est intégrée dès la conception. Les validations portent sur trois plateformes distinctes: un drone quadrirotor en simulation, un robot sphérique Sphero BOLT et un bras manipulateur industriel Fanuc, ces deux derniers testés en conditions réelles. L'enjeu central est la dérive de modèle lors du déploiement: un robot calibré en laboratoire voit ses performances se dégrader dès que l'environnement change, que ce soit un sol différent, une charge variable ou des turbulences. Par rapport aux approches récurrentes classiques (LSTM, GRU), les Neural ODE présentent un avantage structurel: elles modélisent la dynamique en temps continu, ce qui améliore la cohérence physique et simplifie l'interface avec les solveurs MPC. L'inférence du contexte depuis le seul historique actions-états, sans instrumentation additionnelle, réduit la barrière d'intégration pour les industriels. Le test sur un Fanuc, bras omniprésent en production manufacturière, ancre les résultats dans une réalité opérationnelle tangible. Point de réserve: l'article est un preprint et l'abstract ne publie aucune métrique chiffrée de performance, ce qui rend l'évaluation indépendante difficile à ce stade. Les Neural ODE ont été introduites en 2018 par Chen et al. (NeurIPS) comme alternative aux réseaux récurrents pour modéliser des systèmes dynamiques continus. Leur application au contrôle robotique adaptatif répond à un obstacle persistant du secteur: le sim-to-real gap, qui fragilise la fiabilité des systèmes autonomes hors conditions contrôlées. Les approches concurrentes comprennent les processus gaussiens (GP) pour l'adaptation en ligne, les algorithmes méta-apprenants (MAML, PEARL) et l'identification de systèmes en temps réel. Ce travail se distingue par l'inférence contextuelle implicite, couplée nativement au MPC plutôt qu'ajoutée en couche. Le code source est ouvert sur GitHub et des démonstrations vidéo sont accessibles. La prochaine étape logique serait une validation sur des tâches de manipulation à charge variable ou un déploiement en environnement industriel non contrôlé.

RecherchePaper
1 source