Aller au contenu principal
Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms
RecherchearXiv cs.RO3sem

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2504.16509) une architecture transformer entraînée par apprentissage par renforcement, spécifiquement l'algorithme PPO (Proximal Policy Optimization), pour élaguer dynamiquement les graphes de planification utilisés dans les algorithmes d'exploration robotique. Le système cible les graphes RRT (Rapidly Exploring Random Trees) employés dans l'exploration par frontières, une méthode classique où un robot identifie les limites entre zones cartographiées et inconnues pour piloter sa navigation. En simulation, le framework réduit la taille des graphes jusqu'à 96 % sans intervention humaine, en prenant des décisions de suppression de nœuds en temps réel pendant que le robot explore son environnement.

L'intérêt opérationnel est direct : dans les systèmes d'exploration autonome longue durée, entrepôts, sites industriels, bâtiments en intervention d'urgence, les graphes de planification grossissent de façon non bornée et dégradent les performances au fil du temps, forçant soit des redémarrages, soit des architectures mémoire coûteuses. Ici, la politique apprise parvient à associer des décisions locales d'élagage à des résultats d'exploration globaux malgré un signal de récompense rare et retardé, ce qui constitue le résultat le plus difficile à obtenir en RL appliqué à la planification. En contrepartie, le taux d'exploration moyen est légèrement inférieur aux baselines non élagués, mais l'écart-type de couverture est le plus bas observé : le robot explore moins vite, mais de façon nettement plus prévisible d'un environnement à l'autre, un critère souvent plus pertinent en déploiement industriel que la vitesse brute.

La sparsification de graphes dynamiques est un problème connu en SLAM et planification de mouvement, traditionnellement traité par des heuristiques géométriques ou des seuils fixes. Appliquer du RL à cette couche basse de la pile robotique est, selon les auteurs, une première. Le travail reste à ce stade une preuve de concept en simulation, sans validation sur hardware réel ni comparaison avec des systèmes commerciaux comme les AMR de MiR, Fetch Robotics ou Exotec. Les prochaines étapes naturelles seraient un transfert sim-to-real et une évaluation sur des graphes issus de LiDAR 3D, contexte dans lequel la croissance exponentielle des graphes est particulièrement problématique.

Dans nos dossiers

À lire aussi

Formulation sur les groupes de Lie pour les algorithmes de dynamique récursive d'ordre supérieur des robots à base flottante
1arXiv cs.RO 

Formulation sur les groupes de Lie pour les algorithmes de dynamique récursive d'ordre supérieur des robots à base flottante

Des chercheurs ont publié en mai 2026 sur arXiv (réf. 2605.06498) une formulation unifiée basée sur les groupes de Lie permettant de calculer les dérivées temporelles d'ordre supérieur des principaux algorithmes de dynamique pour robots à base flottante. Les méthodes couvertes incluent l'algorithme de Newton-Euler récursif, l'inertie du corps articulé (ABI) et la dynamique hybride, dans un cadre où la base évolue sur SE(3) et le mécanisme attaché est une arborescence cinématique ouverte de configuration sur T^n1 x R^n2. Appliqués à un manipulateur aérien à 12 degrés de liberté (DoF), les algorithmes produisent des expressions analytiques closes pour la dynamique directe et inverse géométrique ainsi que leurs premières dérivées temporelles, avec des simulations numériques validant la méthode jusqu'au 5e ordre de dérivation. L'apport central de ce travail est d'ordre computationnel : les auteurs montrent que le coût de calcul de leurs récursions scale quadratiquement avec l'ordre de dérivation, là où la différentiation automatique (AD) mise en oeuvre via des frameworks courants comme JAX, PyTorch ou CasADi exhibe un scaling exponentiel. Pour les équipes travaillant en commande prédictive (MPC) ou en optimisation de trajectoire pour robots articulés à base libre (drones manipulateurs, humanoïdes sans appui fixe), cette différence de scaling devient critique dès le 3e ou 4e ordre. Les auteurs identifient également une matrice de Coriolis admissible satisfaisant la propriété de passivité, garantie importante pour la synthèse de lois de commande stables, et établissent que le tenseur d'inertie articulé reste invariant à travers toutes les dérivées temporelles, résultat géométriquement non trivial. Ce papier s'inscrit dans une tradition de dynamique spatiale initiée par Featherstone et prolongée notamment par la librairie Pinocchio, développée au LAAS-CNRS (équipe Gepetto, Toulouse), qui implémente déjà des dérivées du premier et second ordre via représentation de Lie. Cette contribution étend explicitement ce cadre aux ordres arbitraires, ouvrant des perspectives pour les méthodes de shooting multiple d'ordre élevé et les approches de sensibilité paramétrique en co-optimisation robot/contrôleur. Les applications directes visées concernent la planification de mouvement pour drones à bras articulés, un segment en croissance rapide dans la logistique et l'inspection industrielle, ainsi que potentiellement les humanoïdes à base flottante dont la dynamique est formellement identique.

UECette contribution étend directement le cadre de la bibliothèque Pinocchio, développée par l'équipe Gepetto du LAAS-CNRS (Toulouse), renforçant le leadership de la recherche française en dynamique robotique différentiable et ouvrant des perspectives concrètes pour les équipes R&D européennes travaillant sur le MPC et l'optimisation de trajectoire pour humanoïdes et drones manipulateurs.

RecherchePaper
1 source
Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil
2arXiv cs.RO 

Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil

Des chercheurs ont déposé sur arXiv (identifiant 2507.23045, version révisée) un algorithme de calibration extrinsèque pour plateformes multi-capteurs, formulé comme une solution générale au problème dit de "robot-world and hand-eye calibration" (RWHEC). La contribution centrale est la garantie de convergence vers l'optimum global, une propriété que les méthodes précédentes, souvent fondées sur une optimisation locale par descente de gradient, ne pouvaient pas assurer. L'algorithme résout simultanément la pose de plusieurs capteurs et de plusieurs cibles, et prend en charge les caméras monoculaires, qui présentent une ambiguïté d'échelle intrinsèque : seules, elles ne peuvent pas mesurer la distance absolue sans information supplémentaire. Une implémentation open-source accompagne la publication pour faciliter reproductibilité et adoption. La calibration extrinsèque, la détermination précise de la position et de l'orientation relative entre un capteur (caméra, LiDAR) et l'effecteur ou la base d'un robot, est un prérequis critique pour tout système multi-capteurs, qu'il s'agisse de robotique industrielle, de véhicules autonomes ou de manipulation. En pratique, les méthodes existantes exigent soit des hypothèses fortes sur l'environnement (cibles connues, mouvements structurés), soit des initialisations manuelles proches de la solution, au risque de converger vers un minimum local erroné. Les auteurs dérivent des critères d'identifiabilité a priori, c'est-à-dire des conditions mathématiques permettant de vérifier avant le calcul si le problème admet une solution unique, ainsi que des garanties d'optimalité globale pour des instances à erreurs de mesure bornées. Cela réduit la charge opérateur et élimine le risque d'échec silencieux en production. Techniquement, l'algorithme repose sur une relaxation SDP (Semidefinite Programming) d'un programme quadratique à contraintes quadratiques (QCQP), une famille de méthodes popularisée notamment par TEASER++ (MIT, 2020) pour le recalage de nuages de points. Les auteurs introduisent en parallèle une nouvelle qualification de contraintes pour les programmes non linéaires à contraintes redondantes, une contribution de théorie de l'optimisation valable indépendamment du problème de calibration. À noter que ce travail reste un preprint non encore évalué par les pairs. Dans un secteur où des acteurs comme Boston Dynamics, Agility Robotics, ou côté français Wandercraft, investissent massivement dans la perception embarquée multi-capteurs, disposer d'une calibration certifiée, générale et peu contraignante représente un gain opérationnel concret pour le passage à l'échelle en environnements réels.

UELes entreprises françaises multi-capteurs comme Wandercraft pourraient intégrer cet algorithme open-source pour fiabiliser leur calibration robot en production sans risque de minimum local silencieux.

RecherchePaper
1 source
Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque
3arXiv cs.RO 

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

Des chercheurs ont publié début mai 2026, via un preprint arXiv (2605.02862), un planificateur de navigation robotique baptisé SRAH (Semantic Risk-Aware Heuristic), conçu pour intégrer des principes de raisonnement issus des grands modèles de langage (LLM) dans le cadre classique de recherche de chemin A. L'algorithme encode des fonctions de coût sémantiques qui pénalisent les zones géométriquement encombrées ou identifiées comme à risque élevé, et déclenche un replanification en boucle fermée dès qu'un obstacle dynamique est détecté. Les auteurs l'ont évalué sur 200 essais randomisés dans un environnement grille 15x15 cases, avec 20% de densité d'obstacles statiques et des obstacles dynamiques stochastiques. SRAH atteint un taux de succès de 62,0%, contre 56,5% pour BFS avec replanification (soit +9,7% d'amélioration relative) et 4,0% pour une heuristique Greedy sans replanification. Une étude d'ablation sur la densité d'obstacles confirme que le façonnage sémantique des coûts améliore la navigation sur des environnements de difficulté variable. Ce travail s'inscrit dans un courant de recherche qui cherche à exploiter la capacité des LLM à encoder du raisonnement contextuel sans les déployer en inférence temps réel, ce qui réduirait la latence et les coûts de calcul embarqués. L'idée centrale, injecter une représentation sémantique du risque dans la fonction heuristique d'A, est pertinente pour les développeurs d'AMR (robots mobiles autonomes) industriels confrontés à des environnements semi-structurés changeants. Cela dit, les résultats doivent être nuancés : un taux de succès de 62% dans une grille 15x15 reste modeste pour une tâche de navigation, et la comparaison avec un Greedy sans replanification est méthodologiquement inégale. La valeur démontrée reste celle de principe, pas de déploiement à l'échelle. La navigation en environnement dynamique est un problème central depuis les travaux fondateurs sur A (Hart, Nilsson, Raphael, 1968) et les variantes D et D*-Lite des années 1990-2000. L'émergence des LLM a relancé l'intérêt pour des heuristiques fondées sur la sémantique plutôt que sur la pure géométrie, une piste explorée par des équipes comme celles de Stanford (SayCan, 2022) ou de Google DeepMind avec RT-2. Sur le segment de la navigation mobile, des acteurs comme Boston Dynamics, MiR ou Exotec (France) intègrent déjà des couches de replanification dynamique dans leurs flottes d'AMR industriels. Ce preprint n'annonce pas de produit ni de déploiement : c'est une contribution algorithmique à valider sur des benchmarks plus réalistes (ROS 2, Gazebo, environnements 3D) avant tout transfert industriel.

UECe preprint pourrait à terme informer les développeurs d'AMR industriels européens sur les heuristiques sémantiques LLM, mais les résultats restent trop préliminaires et le benchmark trop limité (grille 15x15) pour un transfert industriel immédiat.

RecherchePaper
1 source
Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique
4arXiv cs.RO 

Apprendre ce qui compte : objectifs adaptatifs fondés sur la théorie de l'information pour l'exploration robotique

Une équipe de chercheurs a publié en mai 2025 sur arXiv (référence 2605.12084) une méthode appelée Quasi-Optimal Experimental Design, ou QOED, visant à résoudre un problème fondamental de l'exploration robotique : comment guider un robot vers les expériences qui lui apprendront réellement quelque chose d'utile ? La méthode repose sur une analyse de l'espace propre de la matrice d'information de Fisher pour identifier les directions de paramètres réellement observables, puis modifie l'objectif d'exploration pour concentrer l'effort sur ces directions tout en atténuant l'influence des paramètres secondaires ("nuisance"). Évaluée sur des tâches de navigation et de manipulation en simulation et en conditions réelles, QOED génère un gain de performance de 35,23 % grâce à la sélection des directions identifiables, et de 21,98 % supplémentaires via la suppression des effets parasites. Intégrée comme objectif d'exploration dans une boucle d'optimisation de politique model-based, elle surpasse les baselines classiques de RL. Ce résultat compte parce qu'il attaque directement le goulot d'étranglement de l'apprentissage actif en robotique : dans les systèmes haute dimension (bras articulés, manipulation dextre, navigation en environnement non structuré), une large fraction des paramètres du modèle est faiblement observable, voire non identifiable. Les méthodes classiques de curiosité ou d'information gain mesurent une incertitude globale sans distinguer ce qui peut être réduit par l'expérience de ce qui ne le peut pas. QOED fournit une approximation à facteur constant de l'objectif idéal théorique, une garantie formelle rare dans ce champ, ce qui lui confère une légitimité au-delà de la démonstration empirique seule. La méthode s'inscrit dans une longue tradition de théorie du design expérimental optimal (OED) issue des statistiques, ici adaptée au cadre RL avec optimisation en ligne. Sur le plan concurrentiel, les approches voisines incluent les méthodes de curiosité bayésienne (type DIAYN ou LEXA) et les objectifs d'information mutuelle comme VIME ou Plan2Explore. QOED se distingue par son ancrage théorique rigoureux et l'explicitation du sous-espace identifiable, deux points que les méthodes heuristiques négligent. Aucun déploiement industriel ni partenaire n'est mentionné : il s'agit à ce stade d'un résultat académique, dont l'intégration dans des pipelines de calibration ou de sim-to-real reste à valider à plus grande échelle.

RecherchePaper
1 source