Aller au contenu principal
Algorithme d'enchères consensuelles à stratégie d'enchère apprise pour systèmes multi-robots
RecherchearXiv cs.RO4sem

Algorithme d'enchères consensuelles à stratégie d'enchère apprise pour systèmes multi-robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (ref. 2605.21932) une approche hybride pour l'allocation décentralisée de tâches en flotte robotique : remplacer le mécanisme d'enchères déterministe du CBBA (Consensus-Based Bundle Algorithm) par une politique d'enchères neuronale entraînée par apprentissage par renforcement. Le CBBA, algorithme de référence en coordination multi-robots, garantit une convergence prouvable mais repose sur des fonctions de score heuristiques codées à la main, souvent sous-optimales face à des scénarios complexes. Les auteurs entraînent leur politique avec PPO (Proximal Policy Optimization), en calibrant les récompenses sur la proximité aux solutions globalement optimales obtenues par programmation linéaire en nombres entiers mixtes (MILP). Trois architectures neuronales sont comparées : un Neural Additive Model (NAM), un LSTM et un Set Transformer. Les expériences couvrent plusieurs tailles de flotte et confirment que les politiques apprises améliorent systématiquement la qualité d'allocation par rapport au CBBA classique, tout en conservant une exécution entièrement décentralisée.

Le résultat structurellement important est que ce cadre CTDE (Centralized Training, Decentralized Execution) permet aux robots d'enchérir sur des tâches à partir d'observations locales partielles, sans communication globale à l'exécution. Pour les intégrateurs déployant des flottes en entrepôt ou en logistique industrielle, c'est un signal concret : les heuristiques codées manuellement, longtemps standard de fait, peuvent être surpassées par des politiques apprises sans sacrifier les garanties de coordination décentralisée. La capacité à tenir à l'échelle sur différentes tailles de flotte est particulièrement notable, les approches MARL pures souffrant souvent d'une instabilité d'entraînement croissante avec le nombre d'agents.

Le CBBA est issu des travaux de Choi et al. (2009) et reste une référence dans les systèmes multi-robots décentralisés, notamment pour les drones et les AMR industriels. L'hybridation RL et algorithmes de coordination classiques s'inscrit dans un axe de recherche actif, face à deux alternatives concurrentes : les approches MARL pures (scalabilité difficile) et les méthodes d'optimisation combinatoire centralisée (inadaptées au temps réel). Cette publication reste une contribution académique sans déploiement annoncé ni partenaire industriel identifié, mais elle pose une base méthodologique pour des flottes hétérogènes plus larges. Les suites naturelles seraient la validation sur robots physiques et l'extension à des contraintes temporelles explicites, comme des tâches avec fenêtres de temps ou des dépendances séquentielles.

Dans nos dossiers

À lire aussi

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur
1arXiv cs.RO 

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

CoMo3R-SLAM est un système de SLAM dense collaboratif monoculaire présenté en preprint sur arXiv (2605.30488) en mai 2026. Il permet à plusieurs robots de construire ensemble une carte 3D dense d'un environnement extérieur en n'utilisant que des caméras RGB monoculaires, sans capteurs de profondeur de type LiDAR ou RGB-D. Chaque agent embarque un front-end guidé par des priors de reconstruction appris pour assurer le suivi en temps réel et la fusion dense locale. Un coordinateur centralisé prend ensuite en charge la cohérence globale via correspondance de pointmaps denses, synchronisation géométrique Sim(3) en forme fermée, et ajustement de faisceaux global accéléré GPU avec optimisation de profondeur par segments. Le système ne requiert ni capteur de profondeur ni calibration d'intrinsèques paramétriques. Tournant en ligne à 8 FPS, il obtient le meilleur ATE (erreur de trajectoire absolue) sur trois des quatre scènes Tanks and Temples, et des résultats compétitifs sur les séquences Waymo, égalant ou dépassant les méthodes RGB-D état de l'art. L'impact concret pour l'industrie est d'abord matériel : supprimer les capteurs de profondeur réduit significativement le poids embarqué, le coût unitaire et la complexité de calibration des plateformes robotiques. LiDAR et caméras RGB-D représentent souvent plusieurs kilogrammes et plusieurs milliers d'euros par unité, ce qui pénalise le déploiement en flotte. Que des priors d'apprentissage profond permettent de lever l'ambiguïté d'échelle monoculaire en extérieur valide une hypothèse forte du secteur : les modèles feed-forward de reconstruction 3D sont désormais suffisamment robustes pour opérer hors conditions contrôlées. Pour les intégrateurs et décideurs B2B, cela ouvre la voie à des flottes de robots légers capables de cartographier collaborativement des environnements vastes sans infrastructure capteur lourde. Le SLAM collaboratif dense est un défi ouvert depuis une décennie. Des systèmes comme COVINS ou Kimera-Multi s'appuient encore majoritairement sur des capteurs de profondeur ou des environnements intérieurs. La montée en puissance des modèles de reconstruction 3D appris, notamment DUSt3R (2023) et MASt3R (2024), issus de Naver Labs Europe à Grenoble, a rendu accessible la reconstruction dense monoculaire sans calibration explicite. CoMo3R-SLAM est la première application de ces priors dans un cadre multi-agents outdoor. Les benchmarks Tanks and Temples et Waymo constituent une validation pertinente pour des conditions de déploiement réelles. Côté concurrents, les systèmes multi-robots embarqués de Boston Dynamics, ANYbotics ou de spécialistes SLAM comme SLAMcore restent ancrés sur des architectures multi-capteurs. Ce preprint, non encore évalué par les pairs, ouvre la voie à des pilotes sur drones d'inspection ou robots mobiles légers où le rapport poids/performance est critique.

UECoMo3R-SLAM s'appuie directement sur DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble, validant l'apport fondamental de la recherche française comme socle des futurs systèmes SLAM multi-agents légers en extérieur.

RecherchePaper
1 source
Revue des grands modèles de langage pour les systèmes multi-robots
2arXiv cs.RO 

Revue des grands modèles de langage pour les systèmes multi-robots

Une équipe de chercheurs a publié sur arXiv (référence 2502.03814, version 5) la première revue systématique dédiée à l'intégration des grands modèles de langage (LLM) dans les systèmes multi-robots (MRS). Le survey catégorise les usages en trois niveaux d'abstraction : allocation de tâches de haut niveau (décomposition d'objectifs, planification globale), planification de trajectoire au niveau intermédiaire, et génération d'actions bas niveau, auxquels s'ajoute une quatrième dimension couvrant l'intervention humaine et la collaboration homme-robot. Les domaines d'application recensés incluent la robotique domestique, la construction, le contrôle de formation, le suivi de cibles mobiles et les jeux multi-agents robotiques. Les auteurs maintiennent un dépôt GitHub open source mis à jour en continu pour suivre l'évolution rapide des publications. Le principal apport de ce travail est de combler un angle mort : la littérature sur les LLM en robotique se concentrait jusqu'ici sur les systèmes mono-robot, ignorant les défis propres à la coordination distribuée. Passer à plusieurs robots soulève des problèmes structurels distincts : scalabilité des communications, cohérence des plans entre agents, gestion des conflits de ressources. Les auteurs documentent des gains réels en compréhension du langage naturel et en décomposition de tâches complexes, mais identifient trois obstacles majeurs à l'adoption industrielle : les lacunes en raisonnement mathématique (planification géométrique, optimisation multi-agents), les hallucinations pouvant propager des erreurs à l'échelle d'une flotte entière, et la latence d'inférence, incompatible avec les boucles de contrôle temps réel des systèmes industriels. Ce survey arrive dans un contexte où plusieurs acteurs tentent d'industrialiser la coordination robotique fondée sur les LLM : Google DeepMind avec RT-2 et SayCan, Physical Intelligence avec Pi-0, et Figure AI ont chacun démontré des capacités de planification langage-vers-action sur des robots individuels ou en nombre limité. L'extension à des flottes hétérogènes reste un problème ouvert, en particulier sur le sim-to-real : les benchmarks actuels, souvent conduits en simulation, ne reflètent pas fidèlement les contraintes de déploiement réel. Les auteurs identifient le fine-tuning sur des données multi-robots spécifiques, le développement de modèles de raisonnement dédiés aux tâches, et la création de benchmarks standardisés comme priorités de recherche à venir. Aucun calendrier de déploiement commercial n'est évoqué dans le document.

RecherchePaper
1 source
Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base
3arXiv cs.RO 

Patrouille multi-robots : algorithme distribué, partitionnement émergent des zones et conscience situationnelle de la base

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.01501) un algorithme distribué baptisé LR-PT (Local Reactive and Partition) destiné à la patrouille multi-robots. Le principe central : chaque robot sélectionne sa cible de patrouille de manière autonome, à partir d'informations locales uniquement, en combinant dans une fonction d'utilité unifiée deux critères -- la fréquence de couverture des zones d'intérêt et l'urgence de remonter l'état de mission à la station de base. En simulation, LR-PT surpasse les algorithmes de référence existants sur deux métriques clés : la fréquence de visite de l'ensemble des points surveillés et la qualité de la "situation awareness" de l'opérateur à la base, c'est-à-dire sa capacité à prédire les comportements des robots, soutenir la prise de décision et déclencher des interventions d'urgence. L'intérêt technique tient à deux propriétés émergentes. Premièrement, la partition spatiale se forme spontanément sans coordinateur central, ce qui évite les pièges des optima locaux classiques dans les algorithmes de couverture. Deuxièmement, l'architecture entièrement locale confère une robustesse démontrée aux contraintes de communication et aux pannes de robots individuels -- un point critique pour les déploiements industriels en entrepôt, site industriel ou périmètre de sécurité. Pour les décideurs B2B, cela signifie une flotte de robots de surveillance qui continue de fonctionner de façon dégradée plutôt que de s'effondrer complètement en cas de défaillance partielle. La mise en avant explicite de la situation awareness opérateur est aussi notable : c'est un angle souvent négligé dans la littérature sur les essaims robotiques, davantage focalisée sur les métriques de couverture. La patrouille multi-robots est un domaine de recherche actif depuis les années 2000, avec des approches concurrentes comme les algorithmes à base de cartes d'idleness (Chevaleyre, Portugal & Rocha) ou les méthodes par apprentissage par renforcement. LR-PT se positionne dans la famille des algorithmes réactifs locaux, plus simples à déployer sur matériel contraint. Limite importante à noter : les résultats sont exclusivement issus de simulation, le fossé sim-to-real n'est pas adressé. Aucun déploiement réel ni partenariat industriel n'est mentionné, et aucune timeline vers une validation terrain n'est annoncée dans le papier.

RecherchePaper
1 source
Une théorie cinétique de la propagation d'information par rencontres dans les systèmes multi-robots
4arXiv cs.RO 

Une théorie cinétique de la propagation d'information par rencontres dans les systèmes multi-robots

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.02296v1) un cadre théorique pour modéliser la propagation d'information dans les essaims de robots mobiles opérant sans connectivité réseau permanente. L'étude aborde le problème via le cas d'usage du suivi de cible (target tracking) : dans ces systèmes, les robots n'échangent des données que lors de rencontres physiques, transformant chaque interaction en un événement de transport d'information. Les auteurs formalisent trois limites structurelles qui gouvernent la performance collective. La première, la limite d'accès, stipule que l'information ne peut coordonner l'équipe que si elle se propage au-delà des robots ayant directement observé la cible. La deuxième, la limite de fraîcheur (staleness), traduit la perte de valeur d'une donnée à mesure que la cible se déplace entre le moment de la collecte et celui de l'utilisation. La troisième, la limite géométrique, correspond au régime de saturation où la vitesse de déplacement de la cible dépasse la capacité de transport d'information du réseau, rendant les améliorations de communication seules sans effet mesurable sur l'erreur de suivi. La validation repose sur des simulations à grande échelle faisant varier la taille de l'équipe, la superficie de la zone d'opération, la portée de communication et la vitesse de la cible. Ce travail apporte une valeur analytique concrète aux concepteurs de systèmes multi-robots déployés dans des environnements dégradés, typiquement la logistique d'entrepôt autonome, la surveillance de périmètre ou les opérations en zone sans infrastructure. La décomposition accès-fraîcheur-géométrie offre aux ingénieurs un outil de diagnostic : avant d'investir dans une augmentation de la portée radio ou de la densité d'agents, il est possible de déterminer quelle limite est effectivement contraignante dans un scénario donné. Le résultat le plus opérationnellement utile est la linéarité locale de la réponse en régime contraint, qui autorise des approximations de conception simples, contrastant avec le comportement non-linéaire observé sur des plages plus larges de paramètres. En pratique, cela signifie qu'un intégrateur AMR ne peut pas simplement extrapoler les performances d'un petit essai pilote à un déploiement à grande échelle sans tenir compte des transitions de régime identifiées ici. Ce papier s'inscrit dans un corpus croissant autour des réseaux robotiques intermittents, un domaine stimulé par les limites des communications sans fil en milieu industriel et la montée en puissance des flottes autonomes hétérogènes. Les approches concurrentes mobilisent généralement soit la théorie des graphes dynamiques (temporal networks), soit les modèles épidémiques pour modéliser la diffusion d'information, tandis que cette contribution emprunte explicitement au formalisme cinétique inspiré de la physique statistique, ce qui en distingue l'angle. Côté acteurs, des laboratoires comme MIT CSAIL, CMU Robotics et ETH Zurich travaillent sur des problématiques connexes de coordination sans infrastructure. En France, des équipes comme celle de l'INRIA sur les systèmes multi-agents embarqués ou les travaux de recherche liés à Exotec sur la coordination de flotte pourraient trouver dans ce cadre des outils théoriques applicables. La prochaine étape naturelle pour ce type de travail est l'intégration dans des boucles de planification de mouvement adaptatives, où la politique de déplacement des robots serait directement optimisée pour maximiser les rencontres informationnellement utiles.

UEDes équipes françaises comme l'INRIA et des industriels comme Exotec pourraient exploiter ce cadre théorique pour dimensionner et diagnostiquer leurs flottes AMR en environnements sans infrastructure réseau permanente, avant de passer à grande échelle.

RecherchePaper
1 source