Aller au contenu principal
SPADE : planification de trajectoires guidée par croquis et augmentée par des experts en diffusion
RecherchearXiv cs.RO2sem

SPADE : planification de trajectoires guidée par croquis et augmentée par des experts en diffusion

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2506.03512) un framework baptisé SPADE, pour Sketch-guided Path Planning Augmented with Diffusion Experts, destiné à améliorer la planification de trajectoires pour les robots mobiles autonomes (AMR). Le système repose sur deux contributions distinctes : un outil d'annotation repensé de zéro sur ROS 2, permettant une collecte de démonstrations expertes plus robuste, et une stratégie d'entraînement inédite qui intègre une augmentation par diffusion dans des modèles de clonage comportemental (behavioral cloning). Sur les métriques publiées, SPADE affiche une erreur de pose absolue (APE) inférieure de 39,1 % et une distance FID (Fréchet Inception Distance) réduite de 33,5 % par rapport aux méthodes de référence, avec 93,8 % de paramètres entraînables en moins.

Ce résultat est notable parce qu'il attaque un compromis longtemps considéré comme structurel dans le domaine : les modèles de diffusion généralisent bien à des environnements non vus mais sont trop lents pour un déploiement embarqué en temps réel, tandis que les modèles de clonage comportemental légers s'exécutent rapidement mais peinent à sortir de leur distribution d'entraînement. SPADE prétend combiner les deux propriétés sans sacrifier l'une pour l'autre, ce qui, si confirmé sur des benchmarks tiers, représenterait un levier direct pour les intégrateurs d'AMR en logistique et en industrie manufacturière. La réduction drastique du nombre de paramètres ouvre également la voie à un déploiement sur du matériel embarqué contraint.

Les approches actuelles de planification avec préférences humaines s'appuient typiquement soit sur du reward engineering manuel, soit sur des solutions matérielles lourdes. Le clonage comportemental via imitation learning a émergé récemment comme alternative, avec des travaux de référence que SPADE cite sans les nommer dans l'abstract. L'outil d'annotation basé sur ROS 2 adresse spécifiquement le problème de la qualité des démonstrations, souvent le maillon faible des pipelines d'imitation learning. Il s'agit pour l'instant d'un preprint sans évaluation indépendante publiée ; les ablations présentées dans l'article restent auto-évaluées par les auteurs, ce qui impose une lecture critique avant toute intégration dans un pipeline de production.

Dans nos dossiers

À lire aussi

DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert
1arXiv cs.RO 

DIFF-IPPO : planification de trajectoires informatives par diffusion avec cartes de croyance en vocabulaire ouvert

Des chercheurs ont publié sur arXiv (référence 2606.16780) DIFF-IPPO, une pipeline combinant un générateur de cartes de croyance à vocabulaire ouvert avec un planificateur basé sur la diffusion, pour orchestrer des trajectoires globales de drones en exploration autonome. Le système produit des trajectoires qui concentrent la couverture sensorielle sur les zones à haute probabilité d'intérêt, atteignant des scores de détection normalisés entre 81,49 % et 86,55 % selon les scénarios de dataset testés. La validation s'appuie sur un scénario simulé de recherche et sauvetage : une flotte de cinq drones, en mode de génération de trajectoires conditionnée par les cartes de croyance en batch, localise un bâtiment en feu parmi plusieurs candidats en 3,5 minutes en moyenne. L'apport principal de DIFF-IPPO est d'appliquer les modèles de diffusion à la planification de trajectoires informatives (IPP) conditionnée sur des distributions non-gaussiennes et multimodales. La planification IPP classique repose typiquement sur des processus gaussiens, inadaptés aux cartes de croyance complexes produites par la perception sémantique à vocabulaire ouvert, du type de celles issues de modèles vision-langage comme CLIP. En permettant un conditionnement direct sur ces représentations riches, l'approche ouvre des perspectives pour les missions d'inspection industrielle, la surveillance environnementale continue, ou la recherche et sauvetage, en réduisant le temps de détection sans exiger une couverture exhaustive de la zone. Pour un intégrateur de systèmes multi-drones, c'est un signal intéressant : la génération de trajectoires globales en batch, plutôt que la planification myope, devient praticable avec des perceptions à vocabulaire libre. L'IPP est un axe de recherche actif où robots et drones doivent planifier des trajectoires maximisant le gain d'information ou la probabilité de détection. Les méthodes traditionnelles peinent face aux distributions multimodales ; les planificateurs par diffusion, déjà adoptés en robotique mobile et manipulation (DiffusionPolicy, Diffuser), n'avaient pas encore été appliqués à l'IPP global sur cartes sémantiques. DIFF-IPPO comble ce manque, mais la validation reste entièrement en simulation, un gap sim-to-real non encore résolu. Les scénarios multi-agents à cinq drones demandent à être confirmés sur plateforme physique, et la robustesse face à des cartes de croyance bruitées ou incomplètes reste une question ouverte pour les prochaines étapes expérimentales.

RecherchePaper
1 source
SPARC : planification de trajectoire spatiale par communication robotique attentive
2arXiv cs.RO 

SPARC : planification de trajectoire spatiale par communication robotique attentive

Une équipe de chercheurs a publié sur arXiv (référence 2603.02845v3) SPARC, un système de planification de trajectoires pour flottes de robots autonomes décentralisées, centré sur un nouveau mécanisme de communication baptisé RMHA (Relation enhanced Multi Head Attention). Le constat de départ est précis : dans les approches d'apprentissage multi-agents existantes, chaque robot traite les messages de ses voisins de manière uniforme, sans tenir compte de leur distance réelle. En environnement dense, cette indifférence spatiale dilue l'attention là où la coordination est justement la plus critique. RMHA intègre directement les distances de Manhattan par paires dans le calcul des poids d'attention, permettant à chaque robot de prioriser dynamiquement les messages des voisins les plus proches. Ce mécanisme est couplé à un masque d'attention contraint par distance et à une fusion de messages par réseau GRU (Gated Recurrent Unit), le tout entraîné en bout en bout via MAPPO, un algorithme d'apprentissage par renforcement multi-agents. Sur des grilles de 40x40 cases avec 30 % de densité d'obstacles, SPARC atteint environ 75 % de taux de succès, surpassant la meilleure méthode de référence de plus de 25 points de pourcentage. Le résultat le plus structurant est la généralisation zéro-shot : le système est entraîné sur des scénarios à 8 robots et testé directement sur des configurations à 128 robots, sans ré-entraînement. Cette capacité de mise à l'échelle sans supervision supplémentaire est un verrou majeur pour les déploiements industriels réels, notamment en logistique entrepôt où les flottes AMR peuvent dépasser plusieurs dizaines d'unités. Les ablations confirment que l'encodage de la relation de distance est le facteur déterminant du gain de performance en haute densité, ce qui valide l'hypothèse que le biais spatial manquait aux architectures à attention standard appliquées à la coordination robotique. MRPP est un champ de recherche actif depuis une décennie, avec des approches classiques comme CBS (Conflict-Based Search) et des variantes apprises reposant sur QPLEX, MAPPO ou des graph neural networks. SPARC s'inscrit dans la lignée des travaux combinant attention multi-têtes et apprentissage multi-agents coopératif, en corrigeant un angle mort de conception commun à la majorité de ces systèmes. Il n'y a pas, à ce stade, de déploiement annoncé ni de partenariat industriel mentionné : il s'agit d'une contribution de recherche académique. Les prochaines étapes attendues dans ce domaine incluent la validation sur environnements physiques réels et l'extension à des grilles de plus grande dimension, deux conditions nécessaires avant toute intégration dans des systèmes AMR commerciaux.

RecherchePaper
1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
3arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents
4arXiv cs.RO 

Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents

Une équipe de chercheurs propose, dans un préprint arXiv (2606.00933) publié début juin 2026, un cadre de planification de trajectoires pour flottes de robots mobiles combinant modèles de diffusion génératifs et apprentissage par renforcement multi-agents (MARL). Concrètement, chaque robot génère indépendamment des trajectoires candidates via un modèle de diffusion entraîné sur des données mono-agent, puis une fonction de valeur centralisée, apprise par MARL, oriente le processus de débruitage par gradient pour réduire les conflits entre agents. Ce mécanisme dit d'"exponential tilting" pousse la distribution de débruitage vers les trajectoires associées au meilleur retour collectif attendu. Évalué en simulation sur un labyrinthe avec quatre robots mobiles, le système réduit le taux d'interférence inter-agents de 55,4 % à 41,8 %, sans nécessiter de ré-entraînement du modèle génératif ni de planification jointe centralisée. Ce résultat attaque directement le compromis historique entre planification centralisée (précise mais peu scalable à mesure que la flotte grossit) et planification décentralisée (scalable mais aveugle aux autres agents). Le fait que la coordination soit injectée via un signal de guidage externe sans modifier le planificateur diffusion de base ouvre la voie à des architectures modulaires : on entraîne une fois le modèle de trajectoire mono-agent, puis on greffe la coordination selon l'environnement de déploiement. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en manufacture, cela suggère qu'un découplage entre planification locale et coordination globale est techniquement praticable, ce qui simplifierait la mise à l'échelle des flottes hétérogènes sans refonte complète du pipeline. Le domaine est depuis longtemps dominé par des méthodes à base de graphes comme CBS (Conflict-Based Search) ou des approches réactives décentralisées comme ORCA, avec des tentatives d'apprentissage profond restées limitées en conditions réelles. L'application des modèles de diffusion à la génération de trajectoires robotiques constitue un courant émergent, illustré notamment par Diffusion Policy (Chi et al., 2023) en manipulation, mais rarement couplé au MARL pour la coordination de flotte. Ce travail reste pour l'instant une preuve de concept en simulation sur quatre robots dans un environnement simple, et la généralisation à des scènes dynamiques, à des flottes plus larges ou à des robots hétérogènes demeure un défi non adressé. Les prochaines étapes naturelles incluent la validation sur hardware réel et la confrontation aux benchmarks de référence du MAPF (Multi-Agent Path Finding).

RecherchePaper
1 source