Aller au contenu principal
Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
RecherchearXiv cs.RO3sem

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée.

Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée.

Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

Impact France/UE

Aucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

À lire aussi

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
1arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
Nouveau muscle artificiel intelligent pour un retour sensoriel humain dans les robots humanoïdes
2Interesting Engineering 

Nouveau muscle artificiel intelligent pour un retour sensoriel humain dans les robots humanoïdes

Des chercheurs de l'Université nationale de Séoul (SNU) ont publié les résultats d'une étude portant sur un muscle artificiel intelligent capable de combiner actuation et perception dans une seule structure. Le dispositif repose sur des élastomères à cristaux liquides (LCE), un matériau polymère dont l'orientation moléculaire peut être contrôlée, dans lequel sont intégrés des canaux de métal liquide. L'architecture associe deux types de LCE en série : un LCE isotrope, qui joue le rôle de tendon, et un LCE nématique, qui se contracte comme un muscle sous l'effet d'un chauffage électrique. Deux canaux de métal liquide distincts assurent respectivement l'actuation et la mesure en temps réel de la force et de la déformation interne, sans capteur externe. L'équipe a démontré le système sur des doigts et pinces robotiques capables de saisir délicatement des objets tout en estimant automatiquement leur rigidité et leur taille. L'article ne communique pas de chiffres précis de force maximale ni de temps de cycle sur des missions répétées, ce qui limite la comparaison directe avec d'autres actionneurs publiés. Les chercheurs signalent par ailleurs deux limitations concrètes : une dérive de force liée à l'accumulation de chaleur lors de mouvements répétés, et des erreurs de suivi lors de changements brusques de consigne. L'intérêt industriel de ces travaux tient à la suppression de la séparation traditionnelle entre actuation et captation dans les muscles artificiels conventionnels, qui impose aujourd'hui des capteurs additionnels et des architectures de contrôle complexes. Un actionneur qui s'auto-surveille en temps réel réduit la masse embarquée et la surface d'intégration, deux contraintes critiques pour les membres de robots humanoïdes ou les dispositifs d'assistance médicale. Pour les intégrateurs et les équipes R&D travaillant sur des robots à manipulation douce, la capacité à estimer la compliance d'un objet sans outillage sensoriel dédié représente un gain de conception notable. Cela dit, les travaux en sont au stade de la démonstration de laboratoire : les performances sur tâches industrielles répétitives, le vieillissement thermique du matériau et la scalabilité de fabrication restent à établir avant toute application commerciale sérieuse. Cette publication s'inscrit dans un effort plus large de la communauté robotique pour combler le fossé entre actionneurs biologiques et mécaniques. En parallèle, des équipes du MIT Media Lab et du Politecnico di Bari travaillent sur des muscles à fibres électrofluides visant la même combinaison de force, vitesse et contrôle. Du côté industriel, les développeurs de robots humanoïdes comme Figure, Agility Robotics ou 1X s'appuient encore majoritairement sur des actionneurs électromécaniques rigides ou des câbles tendus, dont la gestion de contact reste un problème ouvert. Les LCE chauffés souffrent d'une lenteur de réponse inhérente, que les chercheurs de SNU proposent de corriger via des canaux de refroidissement intégrés ou des modules à effet Peltier, deux pistes qui alourdissent à nouveau le système. Les prochaines étapes annoncées comprennent le raffinement du modèle d'estimation d'élongation et l'étude de la distribution thermique dans le matériau, sans timeline précise de transfert vers un prototype industriel.

RecherchePaper
1 source
MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée
3arXiv cs.RO 

MAG-VLAQ : agrégation multimodale aérien-sol pour la reconnaissance de lieux en vue croisée

Des chercheurs ont publié MAG-VLAQ (Multi-modal Aerial-Ground Query Aggregation for Cross-View Place Recognition), un framework de reconnaissance de lieux qui associe des observations au sol -- caméra RGB et LiDAR -- à des images aériennes ou satellites. L'architecture repose sur des modèles de fondation pré-entraînés pour extraire des tokens visuels denses depuis les images sol et aériennes, auxquels s'ajoutent des tokens géométriques issus du LiDAR. La contribution principale est l'ODE-conditioned VLAQ : une fusion RGB-LiDAR pilotée par des équations différentielles ordinaires (ODE), couplée à des vecteurs de requêtes localement agrégées (VLAQ) dont les centres s'adaptent dynamiquement à l'état multi-modal fusionné. Sur le benchmark KITTI360-AG, MAG-VLAQ atteint 61,1 de Recall@1 en configuration satellite, contre 34,5 pour l'approche concurrente la plus proche, soit un quasi-doublement de l'état de l'art. Les résultats sont également validés sur nuScenes-AG. Le papier est disponible en préprint sur arXiv (2605.09418v1) et n'a pas encore été soumis à revue par les pairs. Ce gain de performance est significatif pour la localisation robotique en milieu urbain, où la capacité à se positionner sur une carte satellite sans GPS fiable reste un verrou applicatif majeur pour les véhicules autonomes, les drones de livraison ou les AMR opérant en extérieur. Cela dit, les benchmarks KITTI360-AG et nuScenes-AG sont dérivés de datasets de conduite autonome : leur transférabilité à des environnements industriels ou à des configurations de drones réels n'est pas démontrée. Sur le plan technique, le conditionnement ODE pour piloter dynamiquement les prototypes de requêtes représente une approche originale pour fusionner des modalités hétérogènes dans un descripteur global cohérent. C'est un signal que les modèles de fondation commencent à apporter des gains mesurables sur des tâches de localisation géométrique, au-delà de la détection d'objets. La reconnaissance de lieux multi-modale est un champ actif depuis une décennie, avec des approches pionnières comme NetVLAD (2016) pour la compression de descripteurs visuels. L'essor des modèles de fondation visuels -- DINOv2, SAM -- a relancé les performances sur cette tâche depuis 2023. Dans le paysage concurrent, des travaux comme AnyLoc, EigenPlaces ou BEV-Net cherchent également à combler l'écart entre vue sol et vue aérienne, mais restent majoritairement mono-modaux (vision seule). MAG-VLAQ se distingue en intégrant LiDAR et conditionnement ODE là où ces approches s'appuient uniquement sur le RGB. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans l'article : à ce stade, il s'agit d'une contribution académique dont les suites pratiques dépendront de tests sur des capteurs et scénarios réels.

RecherchePaper
1 source
Conception conjointe pilotée par la tâche de systèmes multi-robots hétérogènes
4arXiv cs.RO 

Conception conjointe pilotée par la tâche de systèmes multi-robots hétérogènes

Une équipe de recherche a publié sur arXiv (référence 2604.21894) un cadre formel pour la co-conception pilotée par les tâches de systèmes multi-robots hétérogènes. Le problème adressé est fondamental : concevoir une flotte robotique implique de prendre simultanément des décisions sur la morphologie des robots, la composition de la flotte (nombre, types), et les algorithmes de planification, trois domaines traditionnellement traités séparément. Le framework proposé repose sur la théorie de co-conception monotone, qui permet de modéliser robots, flottes, planificateurs et évaluateurs comme des problèmes de conception interconnectés avec des interfaces bien définies, indépendantes des implémentations spécifiques et des tâches cibles. Des séries d'études de cas illustrent l'intégration de nouveaux types de robots, de profils de tâches variés, et d'objectifs de perception probabilistes dans un seul pipeline d'optimisation. L'intérêt industriel tient à la promesse d'optimisation jointe avec garanties d'optimalité, ce que les approches séquentielles actuelles ne peuvent offrir. Pour un intégrateur système ou un COO déployant une flotte AMR dans un entrepôt, la question n'est jamais "quel robot est le meilleur seul" mais "quelle combinaison robot + planificateur + composition de flotte minimise le temps de cycle global sous contrainte budgétaire". Ce framework rend ce raisonnement formellement traçable, et les auteurs soulignent qu'il fait émerger des alternatives de conception non-intuitives que les méthodes ad hoc auraient manquées. La scalabilité et l'interprétabilité revendiquées restent à valider sur des déploiements réels à grande échelle, les résultats publiés restent des études de cas académiques. Ce travail s'inscrit dans un courant de recherche en robotique qui cherche à dépasser les silos disciplinaires : d'un côté la co-conception morphologique (ex : travaux MIT CSAIL sur la co-optimisation structure/contrôle), de l'autre les frameworks de planification multi-agents (ROS 2 Nav2, MoveIt Task Constructor). La théorie de co-conception monotone, développée notamment par Andrea Censi et Luca Carlone, constitue la base théorique. Ce papier étend cette base aux systèmes hétérogènes à grande échelle. Aucune timeline de transfert industriel n'est annoncée, mais le framework pourrait intéresser les éditeurs de logiciels de fleet management (Exotec, Intrinsic/Google, Siemens Xcelerator) comme couche de raisonnement amont à la configuration de flotte.

UEExotec (Bordeaux) et d'autres éditeurs européens de logiciels de gestion de flottes AMR pourraient exploiter ce framework comme couche de raisonnement amont pour l'optimisation conjointe morphologie/composition/planification, mais aucun transfert industriel n'est annoncé.

RecherchePaper
1 source