Aller au contenu principal

Dossier arXiv cs.RO — page 13

609 articles · page 13 sur 13

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

LLMs pour le comportement de recherche dans les essaims de robots décentralisés
601arXiv cs.RO RechercheActu

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure. L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer. Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

1 source
Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source
602arXiv cs.RO 

Scensory : perception olfactive robotique en temps réel pour l'identification conjointe et la localisation de source

Des chercheurs ont publié sur arXiv (référence 2509.19318, version révisée en 2026) un système baptisé Scensory, conçu pour doter les robots d'une capacité olfactive temps réel appliquée à la détection de contaminations fongiques en intérieur. Le framework repose sur des réseaux de capteurs VOC (composés organiques volatils) bon marché et à sensibilité croisée, couplés à des réseaux de neurones capables d'analyser de courtes séries temporelles de 3 à 7 secondes. Sur un panel de cinq espèces fongiques testées en conditions ambiantes, Scensory atteint 89,85 % de précision pour l'identification de l'espèce et 87,31 % pour la localisation de la source. Les deux tâches sont résolues simultanément, à partir d'un même flux de données capteurs. Ce résultat est techniquement significatif parce que les signaux chimiques en diffusion libre sont particulièrement difficiles à exploiter : contrairement à la vision ou au toucher, où le signal est directionnel et localisé, les panaches olfactifs se dispersent de manière stochastique selon les flux d'air ambiants. Que des capteurs VOC grand public, combinés à un apprentissage supervisé sur données collectées automatiquement par le robot, permettent de relier dynamique temporelle du signal et position spatiale de la source change l'équation économique du nez électronique embarqué. Jusqu'ici, la perception chimique robotique supposait soit des capteurs spécialisés coûteux, soit des conditions contrôlées de laboratoire. Scensory suggère qu'une approche data-driven sur matériel accessible peut combler une partie de ce fossé. Le domaine de l'olfaction robotique reste nettement en retard sur la vision et la manipulation, malgré des travaux académiques réguliers depuis les années 2000 sur les nez électroniques (e-nose) et la navigation par gradient chimique. Les applications visées par Scensory, inspection de bâtiments, monitoring environnemental indoor, contrôle qualité alimentaire, n'ont pas encore de solution robotique commerciale établie. Le papier reste un résultat académique sur arXiv sans déploiement annoncé ni partenaire industriel identifié ; les performances reportées devront être validées sur un spectre élargi d'espèces, de conditions d'humidité et de géométries de pièce avant d'envisager une intégration produit.

RecherchePaper
1 source
Impédance variable passive pour le contrôle partagé
603arXiv cs.RO 

Impédance variable passive pour le contrôle partagé

Des chercheurs ont publié un nouveau travail, référencé arXiv:2604.20557, portant sur la stabilisation des systèmes de contrôle partagé en robotique. L'approche proposée s'attaque à un problème précis : lorsqu'un bras robotique est guidé simultanément vers plusieurs objectifs de position avec des priorités variables, les forces générées par chaque objectif doivent être combinées de façon cohérente. Les auteurs reformulent ce problème dans un cadre unifié, couvrant à la fois le contrôle d'impédance à raideur variable et l'arbitrage entre plusieurs contrôleurs par sommation pondérée de leurs sorties en couple et en force. Le cœur de la contribution réside dans l'identification de violations de passivité dans le système en boucle fermée, un phénomène qui peut rendre le système instable lorsque les gains de raideur ou les pondérations changent au fil du temps. La passivité est une propriété physique fondamentale garantissant qu'un système ne génère pas d'énergie de lui-même, condition nécessaire à la stabilité dans les interactions physiques homme-robot. Les méthodes proposées corrigent ces violations sans imposer de contraintes sur la forme des matrices de raideur : celles-ci peuvent inclure des termes hors diagonale et évoluer arbitrairement dans le temps, ce qui offre une flexibilité inédite pour concevoir des comportements de guidage complexes et adaptatifs. Les expériences menées en simulation et sur des robots réels sur plusieurs plateformes confirment l'efficacité de l'approche. Le contrôle partagé, qui consiste à partager la commande d'un robot entre une intention humaine et une assistance automatique, est un enjeu central en robotique collaborative, en assistance médicale et en téléopération. Les approches actuelles peinent à combiner robustesse et flexibilité dès que le contexte évolue dynamiquement. En proposant un cadre générique qui stabilise les contrôleurs d'impédance standards tout en autorisant des arbitrages fluides entre plusieurs objectifs concurrents, ce travail ouvre la voie à des assistants robotiques capables de s'adapter en temps réel aux besoins de l'utilisateur sans compromettre la sécurité de l'interaction physique.

RechercheOpinion
1 source
CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque
604arXiv cs.RO 

CubeDAgger : apprentissage par imitation interactif pour systèmes dynamiques, avec une interaction efficace et à faible risque

Des chercheurs ont publié CubeDAgger, une nouvelle méthode d'apprentissage par imitation interactive conçue pour les systèmes robotiques dynamiques. Présentée dans un article soumis à arXiv (identifiant 2505.04897), elle s'appuie sur un cadre existant appelé EnsembleDAgger et y apporte trois améliorations distinctes : une régularisation explicite du seuil de déclenchement des corrections humaines, un mécanisme de consensus entre plusieurs candidats d'action en lieu et place du simple basculement entre expert et agent, et enfin l'injection d'un bruit coloré autorégressif dans les actions du robot pour garantir une exploration cohérente dans le temps. Les expériences réelles ont été conduites sur une tâche de ramassage avec une cuillère, un robot apprenant à exécuter ce geste correctement à partir de zéro en seulement 30 minutes d'interaction avec un expert humain. L'enjeu central que CubeDAgger cherche à résoudre est la stabilité dynamique, un problème négligé par la majorité des méthodes actuelles. Les algorithmes d'apprentissage par imitation interactive existants fonctionnent bien pour des tâches statiques, où l'expert peut intervenir ponctuellement sans perturber le comportement du robot. Mais dès que la tâche implique du mouvement continu, ramasser un objet, stabiliser une trajectoire, un basculement brutal entre le mode expert et le mode autonome provoque des à-coups mécaniques qui compromettent la sécurité et la fiabilité. CubeDAgger réduit ces discontinuités, ce qui le rend pertinent pour des applications industrielles ou médicales où la précision du geste est critique. L'apprentissage par imitation interactive, dont DAgger est le pionnier depuis 2011, reste une approche de référence pour entraîner des politiques robotiques robustes sans nécessiter des millions d'exemples. Le défi a toujours été de minimiser la charge imposée à l'expert humain tout en conservant la qualité de l'apprentissage. Les variantes récentes comme EnsembleDAgger avaient progressé sur ce point, mais butaient sur les tâches dynamiques. CubeDAgger s'inscrit dans une tendance plus large visant à rendre la robotique apprenante opérationnelle en dehors des environnements contrôlés de laboratoire, avec des horizons d'application dans la logistique, la chirurgie assistée, ou encore les robots d'assistance domestique.

RechercheOpinion
1 source
Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide
605arXiv cs.RO 

Vers une fluidité d'interaction dans un système robotique Wizard-of-Oz : un prototype pour la correction d'erreurs fluide

Un préprint déposé sur arXiv en avril 2026 (identifiant 2604.19374) propose un cadre formel pour concevoir des plateformes de type Wizard-of-Oz (WoZ) dédiées à l'interaction homme-robot, et présente un environnement de simulation en réalité virtuelle destiné aux manipulateurs mobiles. Le principe WoZ, emprunté à la psychologie expérimentale, consiste à faire opérer un robot par un opérateur humain caché pendant que l'utilisateur croit interagir avec un système autonome, méthode couramment utilisée pour collecter des données et prototyper des interfaces avant déploiement réel. Les auteurs identifient quatre propriétés clés qu'une telle plateforme doit satisfaire pour permettre une correction d'erreur fluide : l'interruptibilité et la correction (IaC), la pollabilité (capacité à interroger l'état du système à tout instant), la mesure et l'optimisation de la latence perçue, et la reproductibilité temporellement précise des actions à partir des journaux de logs. L'importance de ce travail réside dans le diagnostic qu'il pose : l'interaction vocale avec les robots reste laborieuse et frustrante dans l'état de l'art actuel, en partie faute de plateformes de développement WoZ suffisamment outillées pour itérer sur la fluidité conversationnelle. Sans mécanisme pour mesurer la latence, simuler les interruptions ou rejouer fidèlement des séquences d'interaction depuis des données enregistrées, il est difficile de progresser méthodiquement vers des interfaces robustes. Ce cadre outille potentiellement les équipes qui développent des interfaces vocales pour cobots industriels ou robots d'assistance, en leur fournissant des critères quantifiables pour évaluer leurs prototypes. Ce travail s'inscrit dans une littérature en HRI qui cherche à combler le fossé entre les démonstrations en laboratoire et les déploiements réels. L'utilisation de la réalité virtuelle comme environnement de simulation pour manipulateurs mobiles gagne du terrain pour réduire les coûts de prototypage physique. Les auteurs s'appuient explicitement sur des systèmes WoZ antérieurs pour formaliser leurs critères, sans toutefois citer de plateforme concurrente nommément. À ce stade, il s'agit d'un prototype de recherche et d'un cadre théorique, sans déploiement industriel ni partenariat commercial annoncé. Les prochaines étapes naturelles impliqueraient des études utilisateurs validant que ces critères améliorent effectivement la fluidité perçue dans des scénarios opérationnels.

RecherchePaper
1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
606arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions
607arXiv cs.RO 

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17810) un travail portant sur la question-réponse incarnée multi-agents (MA-EQA), un paradigme où plusieurs robots coopèrent pour répondre à des requêtes sur ce qu'ils ont collectivement observé sur un horizon temporel long. Le problème central est l'allocation de puissance de transmission entre agents : quand les ressources radio sont limitées, quels robots doivent avoir la priorité pour transmettre leurs souvenirs ? Les auteurs proposent deux contributions : un modèle de qualité de mémoire (QoM) basé sur un examen génératif adversarial (GAE), et un algorithme d'allocation de puissance centré sur la mémoire (MCPA). Le GAE fonctionne par simulation prospective : il génère des questions-tests, évalue la capacité de chaque agent à y répondre correctement à partir de sa mémoire locale, puis convertit les scores obtenus en valeurs QoM. Le MCPA maximise ensuite la fonction QoM globale sous contraintes de ressources de communication. L'analyse asymptotique montre que la puissance allouée à chaque robot est proportionnelle à sa probabilité d'erreur GAE, ce qui revient à prioriser les agents dont la mémoire est la plus riche et la plus fiable. L'intérêt concret pour les architectes de systèmes multi-robots est de déplacer le critère d'optimisation réseau des métriques classiques (débit, latence, taux d'erreur paquet) vers une métrique applicative directement liée à la tâche cognitive. Dans les déploiements d'inspection industrielle, de surveillance ou d'exploration, les robots ne transmettent pas pour transmettre : ils transmettent pour que le système réponde correctement à des requêtes. Traiter la qualité de mémoire comme une ressource à optimiser, au même titre que la bande passante, est une rupture de cadre qui pourrait influencer la conception des protocoles MAC dans les flottes d'agents embarqués. Les expériences montrent des gains significatifs sur plusieurs benchmarks et scénarios, bien que les conditions exactes de déploiement (nombre d'agents, topologie réseau, type de mémoire) ne soient pas détaillées dans le résumé. Ce travail s'inscrit dans la convergence entre vision-langage-action (VLA), robotique incarnée et gestion des ressources sans-fil, un champ en forte expansion depuis 2023 avec les architectures de type RT-2 (Google DeepMind), GR00T (NVIDIA) et les travaux sur les mémoires épisodiques longue durée pour robots mobiles. Sur le plan académique, le GAE adversarial rappelle les techniques d'évaluation automatique utilisées dans les LLM, ici transposées à l'évaluation de mémoire sensorimotrice. Les prochaines étapes logiques seraient une validation sur flotte physique réelle et une intégration avec des architectures mémoire de type VectorDB embarqué. Aucun acteur industriel ni partenaire de déploiement n'est mentionné dans la publication.

RecherchePaper
1 source
Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive
608arXiv cs.RO 

Modélisation du contact améliorée pour lier extéroception et proprioception dans les robots à croissance progressive

Une équipe de chercheurs présente dans un preprint arXiv (réf. 2507.10694v2) une approche permettant d'utiliser des robots souples "croissants" (soft growing robots) comme outils de cartographie autonome dans des environnements inconnus. Ces robots progressent en longueur depuis leur base sans déplacer leur corps, ce qui leur confère une aptitude naturelle aux espaces confinés et non structurés. Le coeur du travail consiste d'abord à caractériser précisément le comportement de collision lors des virages discrets, puis à construire un simulateur géométrique reproduisant les trajectoires en 2D. Le modèle est ensuite validé en situation réelle : un algorithme d'échantillonnage Monte Carlo sélectionne à chaque étape le prochain déploiement optimal en fonction de la carte déjà construite, sur des environnements aussi bien uniformes que non uniformes. L'apport conceptuel est de convertir la déformation passive, habituellement perçue comme une limitation à compenser, en source d'information tactile exploitable. En couplant extéroception (perception de la géométrie externe) et proprioception (état interne du robot), le système peut inférer la structure de son environnement à partir des seules déformations de contact, sans capteurs actifs de type LiDAR ou caméra. La convergence rapide de la sélection Monte Carlo vers des actions quasi-optimales, même dans des configurations irrégulières, suggère qu'une mécanique délibérément simple peut suffire à conduire une exploration utile. Pour des intégrateurs ciblant l'inspection de conduites, de tunnels ou de zones sinistrées, cette voie sans électronique embarquée complexe présente un intérêt opérationnel réel, même si les démonstrations restent limitées à la simulation 2D. Les soft growing robots ont été largement popularisés par les travaux du groupe Hawkes à l'UC Santa Barbara, dont plusieurs publications ont démontré la pénétration de milieux encombrés et l'évitement d'obstacles par déformation passive. Ce nouveau travail prolonge cet effort vers l'autonomie décisionnelle, jusqu'ici absente faute de modèles de contact fiables. Face aux approches classiques de cartographie (AMR à roues, drones miniatures), le robot souple reste marginal en termes de vitesse et de charge utile, mais occupe un créneau distinct pour les espaces très étroits. Les auteurs n'annoncent pas de timeline de commercialisation ni de partenariat industriel ; les prochaines étapes logiques porteront sur l'extension à des environnements 3D et l'intégration de boucles de contrôle temps réel.

RecherchePaper
1 source
Localisation par angle et contrôle de rigidité pour réseaux multi-robots
609arXiv cs.RO 

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Des chercheurs ont publié sur arXiv (référence 2604.11754v2) une contribution théorique et algorithmique portant sur la localisation par mesures d'angles et le maintien de rigidité dans les réseaux multi-robots, en 2D et en 3D. Le résultat central établit une équivalence formelle entre rigidité angulaire et rigidité de type "bearing" (orientation relative) pour des graphes de détection dirigés avec mesures en référentiel embarqué : un système dans SE(d) est infinitésimalement rigide au sens bearing si et seulement s'il est infinitésimalement rigide au sens angulaire et que chaque robot acquiert au moins d-1 mesures de bearing (d valant 2 ou 3). À partir de cette base, les auteurs proposent un schéma de localisation distribué et démontrent sa stabilité exponentielle locale sous des topologies de détection commutantes, avec comme seule hypothèse la rigidité angulaire infinitésimale sur l'ensemble des topologies visitées. Une nouvelle métrique, la valeur propre de rigidité angulaire, est introduite pour quantifier le degré de rigidité du réseau, et un contrôleur décentralisé par gradient est proposé pour maintenir cette rigidité tout en exécutant des commandes de mission. Les résultats sont validés par simulation. L'intérêt pratique de ce travail réside dans le choix des mesures angulaires plutôt que des distances ou des orientations absolues : les angles entre vecteurs de direction peuvent être extraits directement depuis des caméras embarquées à bas coût, sans capteur de distance actif ni accès GPS. Pour les intégrateurs de systèmes multi-robots, notamment en essaims de drones ou en robotique entrepôt avec coordination décentralisée, la robustesse sous topologies commutantes est critique, car les lignes de vue entre agents changent constamment. Le contrôleur proposé adresse ce problème en maintenant activement une configuration spatiale suffisamment rigide pour garantir l'observabilité du réseau, ce qui évite les dégradations silencieuses de localisation que l'on observe dans les déploiements réels. C'est une avancée sur le problème dit du "rigidity maintenance", encore peu traité dans la littérature avec des garanties formelles en 3D. La rigidité de réseau comme fondation pour la localisation distribuée est un domaine actif depuis les travaux fondateurs sur la formation control et les frameworks d'Henneberg dans les années 2010. Les approches concurrentes incluent la localisation par distances (nécessitant UWB ou radar), par bearings seuls (plus sensible aux ambiguïtés), ou par fusion IMU/SLAM embarqué par robot, chacune avec ses propres hypothèses de connectivité et de coût matériel. Ce papier se positionne dans le créneau "caméra seule, pas de métadonnées globales", pertinent pour les petits drones ou les robots à budget capteur contraint. Aucun déploiement ni partenaire industriel n'est mentionné, il s'agit d'une contribution académique pure. Les suites naturelles incluraient une validation sur plateforme physique (type Crazyflie ou quadrupèdes en formation) et l'extension aux perturbations de mesures bruitées en environnement non contrôlé.

RecherchePaper
1 source