Placement adaptatif des tâches selon la QoS en périphér…

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

33

1arXiv cs.RO

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper

1 source

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

50

2arXiv cs.RO

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

Des chercheurs ont publié sur arXiv (arXiv:2602.12024v2) un algorithme nommé ACCBS (Adaptive-Horizon Conflict-Based Search), conçu pour résoudre en temps réel le problème de coordination de flottes de robots dans des entrepôts automatisés. Le Multi-Agent Path Finding (MAPF) consiste à calculer des trajectoires sans collision pour des dizaines à des centaines d'AGV ou AMR opérant simultanément dans un même espace. ACCBS est un planificateur en boucle fermée qui adapte dynamiquement son horizon de planification en fonction du budget computationnel disponible, et réutilise un arbre de contraintes unique pour passer fluidement d'un horizon à l'autre. L'algorithme exhibe un comportement "anytime" : il retourne une solution faisable de bonne qualité très rapidement, puis l'améliore jusqu'à l'optimalité asymptotique si le temps de calcul le permet. L'enjeu industriel est direct. Les approches actuelles se divisent en deux familles peu satisfaisantes : les planificateurs en boucle ouverte, qui génèrent des trajectoires fixes et s'effondrent dès qu'un robot tombe en panne ou qu'un opérateur traverse une allée, et les heuristiques en boucle fermée, qui réagissent aux perturbations mais sans garantie de performance formelle, ce qui les exclut des déploiements à contraintes de sécurité. ACCBS propose un compromis crédible : la robustesse aux perturbations d'un système réactif combinée aux garanties théoriques d'un solveur optimal. Pour un intégrateur ou un COO logistique, cela signifie potentiellement pouvoir dimensionner une flotte plus serrée sans sacrifier la fiabilité SLA, et certifier le comportement du système face aux auditeurs. ACCBS s'appuie sur CBS (Conflict-Based Search), un algorithme de référence académique pour le MAPF optimal, et y greffe un mécanisme d'horizon variable inspiré du Model Predictive Control (MPC) et de l'iterative deepening. Ce domaine est activement disputé : Amazon Robotics, Geek+ et Exotec (acteur français, qui déploie des flottes Skypod dans plusieurs dizaines d'entrepôts en Europe et Amérique du Nord) investissent massivement dans la coordination de flottes à grande échelle. La contribution reste à ce stade un résultat de recherche avec études de cas simulées, aucun déploiement réel n'est annoncé, et les auteurs ne précisent pas le nombre d'agents testé ni les temps de cycle obtenus, ce qui limite l'évaluation de la maturité industrielle.

UEExotec, acteur français leader des flottes Skypod déployées dans des dizaines d'entrepôts en Europe, opère précisément dans le domaine adressé par ACCBS ; si l'algorithme atteint la maturité industrielle, il pourrait renforcer la compétitivité des solutions européennes de coordination de flottes AMR face aux acteurs américains et asiatiques.

RecherchePaper

1 source

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

50

3arXiv cs.RO

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Des chercheurs ont publié sur arXiv en juin 2026 (arXiv:2606.18189) une méthode appelée E-MPC (Engagement-aware Model Predictive Control), conçue pour repenser le rôle de l'humain dans la supervision des robots d'assistance. L'approche a été validée en simulation puis dans une étude utilisateur réelle, sur un système robotique d'aide à l'alimentation (bite acquisition), avec des participants simulant des limitations de mobilité. Le principe central : plutôt que de solliciter l'opérateur uniquement lorsqu'un robot échoue ou est en incertitude, le système planifie proactivement des moments d'interaction pour maintenir un niveau d'engagement choisi par l'utilisateur, tout en respectant une contrainte de charge cognitive maximale. E-MPC intègre un modèle de dynamique d'interaction utilisateur qui prédit comment l'engagement évolue en fonction de la fréquence et du type d'intervention demandée. Ce travail remet en cause un postulat dominant dans la robotique d'assistance : que l'autonomie maximale est toujours préférable pour l'utilisateur. Dans des contextes de caregiving physique, les personnes à mobilité réduite risquent de devenir de simples observateurs passifs d'un robot qui agit entièrement seul, ce qui dégrade l'expérience et potentiellement l'adhésion au système. E-MPC déplace le curseur : l'interaction n'est plus un signal d'échec, mais un levier de conception du workflow. Cela a des implications concrètes pour les intégrateurs de systèmes d'assistance à domicile ou en EHPAD, où le consentement continu et le sentiment de contrôle de l'utilisateur sont des critères de certification et d'acceptabilité. La robotique d'assistance humanoïde et collaborative accumule depuis plusieurs années des travaux sur le human-in-the-loop, mais ceux-ci se concentrent presque exclusivement sur la robustesse (détection de pannes, out-of-distribution handling). E-MPC s'inscrit dans une tendance plus récente qui emprunte aux travaux sur l'interaction adaptative et la téléopération partagée, avec des connexions aux recherches sur le shared autonomy (Javdani, Srinivasa et al.). Les auteurs n'annoncent pas de commercialisation ni de partenariat industriel à ce stade : il s'agit d'un prototype de recherche avec étude utilisateur, pas d'un produit déployé. Les suites naturelles incluent des essais avec de vraies populations en situation de handicap et l'extension à des tâches multi-étapes plus complexes que l'alimentation.

UELes implications pour la certification des robots d'assistance à domicile et en EHPAD (consentement continu, sentiment de contrôle utilisateur) sont directement pertinentes pour les intégrateurs français et la réglementation médicosociale en France.

RecherchePaper

1 source

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

44

4arXiv cs.RO

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

Une équipe de chercheurs a publié le 11 juin 2026 (arXiv:2606.11489) une méthode baptisée CLAE (Closed-Loop Affine Activation Editing), permettant de piloter le comportement d'une flotte de robots sans modifier les poids du modèle de base. Plutôt que de recourir au fine-tuning ou au réentraînement complet de la politique, CLAE intervient à l'inférence en éditant directement les activations intermédiaires du réseau neuronal. Concrètement, la méthode entraîne d'abord un auto-encodeur sparse sur les activations d'une politique gelée, identifie les features latentes pertinentes pour le comportement visé via sondage post-hoc, puis apprend une politique de pilotage légère par renforcement qui applique des transformations affines sur ces latents en temps réel. Les validations portent sur une flotte de quadrotors en simulation et en tests physiques, naviguant vers des positions objectif tout en évitant des obstacles. CLAE y démontre trois capacités distinctes : contrôle du profil de vitesse individuel de chaque appareil, maintien d'une formation configurable entre plusieurs robots, et émergence d'un comportement entièrement nouveau consistant à minimiser l'exposition aux caméras de surveillance présentes dans l'environnement. Ce que cette approche prouve, c'est qu'il est possible de découpler l'adaptation comportementale du cycle de réentraînement, un point structurant pour les intégrateurs industriels et les équipes de déploiement en production. Le risque d'oubli catastrophique, bien documenté lors du fine-tuning de politiques obtenues après des milliers d'heures de simulation, est écarté puisque les poids de base restent intacts. La couche de pilotage est légère et s'adapte en boucle fermée à l'état courant du robot et au contexte multi-agents, ce qui la distingue des approches d'activation patching offline utilisées dans les LLMs. La diversité des comportements obtenus sur une même architecture gelée, de la gestion de formation à l'esquive de surveillance, suggère une généralité de la méthode au-delà des tâches de navigation. Les résultats restent cependant limités aux quadrotors pour l'instant, et la transférabilité à des robots manipulateurs ou humanoïdes n'est pas encore démontrée. CLAE s'inscrit dans un courant de recherche actif autour du steering de réseaux de neurones via sparse autoencoders, popularisé par les travaux d'Anthropic sur l'interpretabilité des LLMs et les techniques d'activation patching dans les transformers. Appliqué à la robotique incarnée, ce paradigme impose une contrainte supplémentaire : la boucle fermée exige des corrections adaptées en temps réel à la dynamique du système, contrairement à l'édition statique en NLP. Parmi les approches concurrentes figurent les méthodes de parameter-efficient fine-tuning (LoRA, adaptateurs), le meta-learning de type MAML et les residual policies. La prochaine étape naturelle serait une validation sur des architectures VLA (Vision-Language-Action), où le coût prohibitif de réentraînement rend encore plus pertinente une solution d'édition à l'inférence, notamment pour les déploiements industriels à grande échelle.

RecherchePaper

1 source

Placement adaptatif des tâches selon la QoS en périphérie : un contrôle en boucle fermée pour les systèmes multi-robots

À lire aussi

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée