Aller au contenu principal

Dossier arXiv cs.RO — page 3

568 articles · page 3 sur 12

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle
101arXiv cs.RO RecherchePaper

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle

Des chercheurs ont déposé sur arXiv (référence 2512.00775, version 2, 2025) un cadre baptisé SAGAS (Semantic-Aware Graph-Assisted Stitching) pour la planification robotique à long horizon à partir de données hors-ligne uniquement. Le problème ciblé : piloter un agent pour exécuter des tâches complexes décrites en logique temporelle linéaire (LTL), un formalisme mathématique exprimant des séquences de conditions du type "atteindre A, puis B, tout en évitant C", sans modèle de dynamique, sans démonstrations spécifiques à la tâche, et sans interaction en ligne avec l'environnement. SAGAS apprend deux composants offline à partir de fragments de trajectoires hétérogènes : un graphe latent d'atteignabilité réutilisable, et un exécuteur conditionné sur des objectifs figé après l'entraînement. Pour chaque nouvelle formule LTL au moment du test, le système augmente ce graphe avec des propositions sémantiques, puis applique une recherche en produit de Büchi pour synthétiser un plan de waypoints "prefix-suffix" à coût minimisé, exécuté par l'exécuteur figé. Les expériences portent sur les domaines de locomotion d'OGBench, une suite de benchmarks offline standard dans la communauté. La contribution centrale revendiquée est la généralisation zero-shot à des spécifications LTL non vues à l'entraînement, sans récompense tâche-spécifique ni réentraînement de politique. C'est une distinction structurelle face aux deux familles dominantes : la synthèse symbolique model-based exige un système de transitions étiqueté précis, difficile à construire sur du matériel réel, tandis que les méthodes d'apprentissage par renforcement supposent généralement une interaction en ligne ou des démonstrations dédiées. SAGAS déplace le raisonnement propre à chaque formule vers une augmentation de graphe et une recherche symbolique au temps d'inférence, découplant ainsi la capacité de généralisation du processus d'entraînement. À noter : les validations sont entièrement simulées sur OGBench ; le gap sim-to-real n'est pas adressé, ce qui limite la portée industrielle immédiate. La planification LTL en robotique mobilise un nombre croissant d'équipes, portée par le besoin de comportements vérifiables formellement sur des robots industriels et de service. Les approches concurrentes couvrent un spectre large : planification par diffusion (Diffuser, Decision Diffuser), politiques conditionnées par langage naturel via des VLA (vision-language-action models), et combinaisons de model checking avec du renforcement offline sur D4RL (IQL, CQL). SAGAS occupe la niche "offline + symbolique + zero-shot LTL", encore peu exploitée. Aucun déploiement matériel ni partenariat industriel n'est annoncé ; les suites logiques seraient une validation sur plateforme physique et une extension à des environnements à espace d'état plus riche.

1 source
Contacts corps rigides lisses formulés comme un ReLCP : un problème de complémentarité linéaire généré récursivement
102arXiv cs.RO 

Contacts corps rigides lisses formulés comme un ReLCP : un problème de complémentarité linéaire généré récursivement

Des chercheurs publient sur arXiv (référence 2506.14097) une reformulation des méthodes de simulation de contact entre corps rigides lisses, en introduisant le concept de "Problème de Complémentarité Linéaire Récursivement Généré" (ReLCP). Là où les approches classiques discrétisent les surfaces en maillages ou en assemblages de sphères pour détecter les collisions, cette méthode opère directement sur la géométrie lisse sous-jacente. Concrètement, elle part d'un LCP mono-contrainte standard (dit SNSD, shared-normal signed-distance), puis augmente itérativement le système uniquement lorsque la mise à jour temporelle prédirait une interpénétration des surfaces réelles, limitant ainsi l'explosion combinatoire du nombre de contraintes actives. Les auteurs démontrent formellement que pour des corps strictement convexes et des pas de temps suffisamment petits, l'augmentation récursive se termine en un nombre fini d'itérations et produit une mise à jour de vitesse discrète unique. À la limite des petits pas de temps, la méthode se réduit au LCP SNSD classique. Les validations numériques portent sur des ellipsoïdes en collision, des suspensions denses d'ellipsoïdes, des colonies bactériennes en croissance, et des réseaux de cotte de mailles. L'enjeu pour les développeurs de simulateurs physiques est direct : les approches par proxy-surface souffrent d'un défaut bien documenté, améliorer la fidélité géométrique multiplie le nombre de contraintes et dégrade les performances de manière non linéaire. Le ReLCP contourne ce problème en n'activant des contraintes supplémentaires qu'à la demande, ce qui se traduit, selon les auteurs, par des réductions substantielles du nombre de contraintes actives et du temps de calcul, ainsi qu'une interpénétration bornée sans rugosité artificielle induite par la discrétisation. Pour les équipes travaillant sur la simulation de robots manipulant des objets convexes denses (granulats, composants d'assemblage), ou sur des systèmes biologiques computationnels, c'est une alternative concrète aux formulations de surfaces discrètes. Sur le plan du contexte, la simulation de contact par complémentarité est un champ de recherche actif depuis les travaux fondateurs des années 1990-2000 (Stewart, Trinkle, Anitescu), et reste centrale pour les moteurs physiques embarqués dans les simulateurs robotiques comme MuJoCo, Isaac Sim ou Bullet. La méthode s'inscrit dans une tendance plus large visant à exploiter directement la géométrie analytique (fonctions de distance signée, formes implicites) plutôt que des approximations discrètes. Aucune implémentation commerciale ni partenariat industriel n'est annoncé dans ce preprint : il s'agit d'un résultat théorique et numérique dont l'intégration dans des outils de simulation grand public reste à évaluer.

RecherchePaper
1 source
X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose
103arXiv cs.RO 

X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose

Des chercheurs ont déposé le 13 mai 2026 sur arXiv (2605.12162) X-Imitator, un cadre d'apprentissage par imitation pour la manipulation robotique fondé sur un couplage bidirectionnel entre perception spatiale et génération d'actions. L'architecture duale fonctionne par conditionnement mutuel : les prédictions de pose courante sont conditionnées sur les actions passées, et les actions générées tiennent compte des estimations de pose réactualisées en retour. Évalué sur 24 tâches simulées et 3 tâches en environnement réel, X-Imitator surpasse selon les auteurs les politiques visuomotrices de base ("vanilla policies") ainsi que les méthodes exploitant un guidage de pose explicite mais unidirectionnel. Le code source sera rendu public. Le verrou adressé est bien identifié dans la littérature : les approches actuelles traitent perception et exécution comme deux modules découplés, ou reliés au mieux de façon unidirectionnelle. X-Imitator instaure une boucle de raffinement mutuel continu, que les auteurs rapprochent des modèles prospectifs internes ("forward models") du système moteur humain. En pratique, la politique corrige ses estimations de pose à la lumière de ses propres actions passées, mécanisme potentiellement utile dans les tâches à contacts multiples ou à déformation d'objet, où les erreurs de perception s'accumulent. L'architecture modulaire est conçue pour s'intégrer à diverses politiques visuomotrices existantes, ce qui lui confère une portée plus large qu'un système monolithique. À noter cependant : l'évaluation réelle se limite à 3 tâches, et le papier reste un preprint non encore relu par les pairs. X-Imitator s'inscrit dans le courant de l'apprentissage par imitation appliqué à la manipulation fine, discipline en forte expansion depuis Diffusion Policy (Chi et al., 2023) et ACT (Zhao et al., 2023). Face aux politiques hybrides perception-action portées par des groupes comme DeepMind, Stanford ou Physical Intelligence avec pi-zero, le système se positionne comme un module d'amélioration orthogonal plutôt qu'une architecture concurrente de remplacement. Aucun partenaire industriel ni calendrier de transfert applicatif n'est mentionné dans la publication : X-Imitator reste un résultat académique. La mise en open source annoncée du code permettra à la communauté de valider les performances sur des benchmarks partagés comme RLBench ou ManiSkill, étape nécessaire avant toute adoption à plus grande échelle.

RecherchePaper
1 source
Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs
104arXiv cs.RO 

Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs

Une équipe de chercheurs publie sur arXiv (référence 2605.10094, mai 2026) un cadre d'adaptation appelé "Retrieve-then-Steer" pour améliorer la fiabilité en boucle fermée des modèles VLA (Vision-Language-Action) génératifs. Pendant le déploiement, le robot enregistre dans une mémoire persistante les segments observation-action ayant conduit à des succès vérifiés par l'environnement. À chaque inférence, le système récupère les segments les plus pertinents à l'état courant, filtre les candidats incohérents par analyse de cohérence au niveau trajectoire, puis les agrège en un "prior d'action élite". Ce prior est injecté dans un état intermédiaire du générateur d'actions par flow-matching, avec une force modulée selon la confiance de la récupération, selon un mécanisme nommé "confidence-adaptive prior guidance". L'ensemble opère sur un VLA gelé (paramètres fixes), sans aucune mise à jour de poids. Des expériences en simulation et en environnement réel montrent des gains de taux de succès et de stabilité, en particulier sur des tâches longues et multi-étapes. L'approche répond à un angle mort des évaluations actuelles : les VLA sont testés épisode par épisode en mode zero-shot, ignorant les réussites accumulées dans le même environnement. Or un robot industriel répète souvent les mêmes gestes dans le même atelier. En capitalisant sur ces expériences vérifiées sans fine-tuning, la méthode lève un obstacle majeur à l'intégration B2B des bras manipulateurs pilotés par VLA. L'adaptation non paramétrique adresse aussi indirectement le problème du sim-to-real gap : le signal provient directement de l'environnement réel effectif, pas d'une simulation. Les VLA génératifs font l'objet d'une course intense depuis 2024, avec pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA comme références dominantes, mais leur fiabilité en déploiement prolongé reste un sujet peu traité dans la littérature. Ce travail s'inscrit dans un courant émergent de test-time adaptation (TTA) qui cherche à contourner le coût du fine-tuning post-déploiement. La méthode étant compatible avec tout VLA basé sur le flow-matching, son périmètre d'application potentiel est large. Aucun partenaire industriel ni calendrier commercial n'est mentionné, ce qui positionne cette contribution comme de la recherche fondamentale avec un potentiel d'intégration à moyen terme dans les pipelines de manipulation généraliste.

IA physiqueActu
1 source
IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite
105arXiv cs.RO 

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

Des chercheurs présentent SAGE (Sandbox-Abstracted Grounded Experience), un framework pour la navigation autonome de robots en environnement ouvert, publié en mai 2026 sur arXiv (2605.10118). Le constat de départ : les Vision-Language Models (VLMs) disposent de fortes capacités de raisonnement général, mais échouent en navigation embodied faute de données alignées vision-contrôle en monde réel. Les simulateurs photoréalistes (Habitat, Isaac Sim) offrent une alternative moins coûteuse, mais les politiques apprises peinent à se transférer vers des environnements physiques. SAGE résout ce problème en entraînant les agents dans des abstractions sémantiques contraintes par la physique plutôt que dans des décors photoréalistes, imitant le mécanisme de "simulation mentale" humain où l'on planifie dans le simplifié avant d'exécuter dans le réel. Le système fonctionne en trois phases : Genesis (génération d'environnements sémantiques variés), Evolution (apprentissage par renforcement avec un mécanisme d'écrêtage adaptatif asymétrique) et Navigation (transfert vers le contrôle robot réel). Sur le benchmark A-EQA (Embodied Question Answering), SAGE atteint 53,21 % de taux de succès LLM-Match, soit +9,7 points par rapport à la baseline. La validation inclut un déploiement préliminaire sur robot physique en environnement intérieur. Ce résultat valide une hypothèse contre-intuitive pour le secteur : réduire le réalisme visuel de la simulation peut améliorer le transfert sim-to-real plutôt que le compromettre. La majorité des frameworks actuels parient sur la fidélité photoréaliste pour combler le reality gap ; SAGE inverse ce paradigme. Pour les intégrateurs et décideurs industriels, la démarche ouvre une voie moins gourmande en compute et en données terrain pour déployer des agents de navigation autonome dans des espaces non structurés (entrepôts, hôpitaux, bureaux). Le mécanisme d'écrêtage adaptatif asymétrique de la phase Evolution représente également une contribution technique ciblée : il stabilise l'apprentissage par renforcement lorsque les distributions d'expériences sont déséquilibrées, un point de friction récurrent dans les pipelines de navigation embodied. La navigation embodied assistée par VLMs est en forte expansion depuis 2023, portée par des travaux comme NavGPT, EmbodiedGPT et les architectures VLA (Vision-Language-Action). Le reality gap y reste un obstacle structurel : les politiques entraînées sur des datasets de simulation (Gibson, Matterport3D) généralisent rarement aux environnements réels, contraignant les équipes à des campagnes de collecte terrain coûteuses. SAGE propose une troisième voie entre simulation photoréaliste et données terrain. La validation physique reste toutefois préliminaire et limitée à un contexte indoor, ce qui positionne encore ce travail dans la catégorie recherche académique expérimentale plutôt que produit déployable. Aucune comparaison directe avec des frameworks établis comme Habitat 3.0 ou Isaac Lab n'est fournie dans cette version initiale, ce qui compliquera le positionnement pour les équipes R&D souhaitant adopter SAGE sans reproduire les expériences de zéro.

IA physiqueActu
1 source
PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)
106arXiv cs.RO 

PriorVLA : adaptation préservant les acquis pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 15 mai 2026 sur arXiv (2605.10925) PriorVLA, un framework d'adaptation pour les modèles Vision-Language-Action (VLA) destinés à la manipulation robotique généraliste. L'approche repose sur deux composants distincts : un Prior Expert gelé, utilisé en lecture seule pour conserver les représentations apprises lors du pré-entraînement, et un Adaptation Expert entraînable sur la tâche cible. Des Expert Queries extraient des priors de scène depuis le VLM pré-entraîné et des priors moteurs depuis le Prior Expert, puis les injectent dans l'Adaptation Expert pour guider la spécialisation. Résultat : PriorVLA ne met à jour que 25 % des paramètres modifiés par un fine-tuning complet. Sur le benchmark RoboTwin 2.0-Hard, il dépasse pi0.5 de 11 points ; sur LIBERO, il atteint 99,1 % de taux de succès moyen. Sur huit tâches réelles et deux plateformes embarquées, le modèle affiche 81 % de succès en distribution et 57 % hors distribution. En régime few-shot à 10 démonstrations par tâche, il atteint respectivement 48 % et 32 %, surpassant pi0.5 de 24 et 22 points. Le problème central que PriorVLA attaque est bien documenté : le fine-tuning complet d'un VLA pré-entraîné sur de grandes quantités de données tend à écraser les priors larges au profit de patterns étroits propres à la distribution d'entraînement, dégradant la généralisation hors distribution. C'est précisément le noeud du déploiement industriel, un robot doit fonctionner dans des environnements légèrement différents de ceux vus à l'entraînement. Les gains OOD de PriorVLA, conjugués à ses performances few-shot, suggèrent une voie plus efficace en données et en calcul pour adapter des fondations générales à des cellules de production spécifiques, sans réentraîner l'intégralité du modèle. PriorVLA s'inscrit dans la course à l'adaptation des VLA généralistes, un segment dominé par Physical Intelligence avec pi0 et pi0.5, et par NVIDIA avec GR00T N2 côté infrastructure. L'article utilise pi0.5 comme baseline principale, ce qui positionne PriorVLA explicitement comme une amélioration de l'état de l'art issu de Physical Intelligence. L'approche par expert gelé rappelle des techniques issues du PEFT (Parameter-Efficient Fine-Tuning) en NLP, ici transposées à l'action robotique. Les benchmarks RoboTwin 2.0 et LIBERO sont des standards académiques simulés ; les résultats sur tâches réelles, bien que prometteurs, restent limités à un contexte de laboratoire. Aucun déploiement industriel ni partenariat industriel n'est mentionné dans la publication.

UELes laboratoires de robotique européens (CEA-List, INRIA) pourraient appliquer cette méthode pour adapter des VLA généraux à leurs plateformes avec moins de données et de calcul, mais aucune entité française ou européenne n'est directement impliquée dans la publication.

IA physiqueOpinion
1 source
Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA
107arXiv cs.RO 

Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA

Des chercheurs ont publié sur arXiv (référence 2605.10821, mai 2026) UniSteer, un framework d'adaptation des modèles VLA (vision-language-action) basés sur la diffusion pour la manipulation robotique en conditions réelles. L'approche combine deux mécanismes jusqu'ici incompatibles : l'apprentissage par renforcement dans l'espace du bruit (noise-space RL), qui optimise un acteur léger sans toucher au modèle VLA préentraîné gelé, et les interventions correctives humaines fournies en espace d'action. La clé technique est une inversion approximative action-vers-bruit (action-to-noise inversion) appliquée au décodeur flow-matching gelé, ce qui permet de convertir chaque correction humaine en cible de supervision directement exploitable par le même acteur bruit que le RL optimise en parallèle. Sur quatre tâches de manipulation réelles et distinctes, UniSteer fait passer le taux de succès de 20 % à 90 % en 66 minutes d'adaptation en moyenne, surpassant les baselines noise-space RL autonomes et les approches human-in-the-loop en espace d'action. Ce résultat est significatif parce que l'adaptation on-robot reste le goulot d'étranglement majeur entre les VLA préentraînés et le déploiement industriel. Les modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montrent de fortes capacités en simulation et sur des distributions de données larges, mais se dégradent rapidement face aux distributions réelles spécifiques à un site ou à une tâche. UniSteer démontre qu'il est possible d'atteindre une adaptation efficace en moins d'une heure de temps robot, un budget crédible pour un intégrateur industriel. La précision à nuancer : les 66 minutes sont une moyenne sur quatre tâches contrôlées en laboratoire, et les conditions expérimentales exactes (complexité des tâches, variabilité de l'environnement, fréquence des interventions humaines) ne sont pas encore pleinement documentées dans le preprint. Ce travail s'inscrit dans une dynamique de recherche intense sur le fine-tuning des VLA post-déploiement, aux côtés d'approches comme RLIF (reinforcement learning from interventions) et DAgger. Le noise-space RL avait été proposé comme alternative moins coûteuse au fine-tuning complet, mais souffrait d'une exploration autonome inefficace. UniSteer comble ce déficit en injectant du signal humain sans nécessiter de réentraîner l'architecture de dénoising. Les suites logiques incluent des validations sur des VLA commerciaux (pi-0, GR00T N2, Helix d'Agility Robotics) et des tâches à plus longue chaîne d'actions, où la composante humaine pourrait devenir prohibitivement coûteuse. Aucun partenaire industriel ni calendrier de transfert n'est annoncé : il s'agit d'un preprint académique, pas d'un produit.

IA physiqueOpinion
1 source
Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)
108arXiv cs.RO 

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion
1 source
Au-dessus et en dessous : SLAM multi-robots hétérogène pour domaines de surface et sous-marins
109arXiv cs.RO 

Au-dessus et en dessous : SLAM multi-robots hétérogène pour domaines de surface et sous-marins

Une équipe de chercheurs a publié sur arXiv (référence 2605.09811) un système de cartographie et localisation simultanées multi-robots (SLAM) capable de fusionner les données d'un véhicule de surface autonome (USV) et de plusieurs véhicules sous-marins autonomes (AUV) en une seule carte cohérente. Là où les approches existantes recouraient au ping acoustique entre robots pour mesurer les distances, ce travail exploite une observation géométrique : certaines structures présentes dans les environnements maritimes sont visibles à la fois depuis la surface et depuis le fond, ce qui permet d'établir des fermetures de boucle visuelles inter-robots. Chaque robot effectue sa propre estimation d'état en autonomie, puis un nœud centralisé détecte ces correspondances croisées USV-AUV et fusionne l'ensemble des trajectoires dans un graphe de poses unique couvrant la totalité de la mission. Le système a été validé sur des données perceptuelles réelles dans trois environnements distincts, montrant une réduction des erreurs de localisation pour les AUVs par rapport au SLAM mono-robot sur les mêmes trajectoires. L'intérêt opérationnel est direct : le ping acoustique impose que les robots se trouvent à portée mutuelle simultanément, que le signal ne soit pas obstrué, et souvent que les horloges soient synchronisées, contraintes difficiles à tenir dans des environnements encombrés (quais, infrastructures offshore, épaves). En s'affranchissant de ces dépendances, cette approche ouvre la voie à des missions d'inspection sous-marine plus longues et plus autonomes, notamment pour le monitoring de pipelines, de fondations d'éoliennes offshore ou de structures portuaires, sans déployer d'infrastructure acoustique dédiée. Le papier constitue également une preuve de faisabilité que le sim-to-real gap dans la mise en correspondance de features visuels cross-domaines (surface vs sous-eau) est franchissable sur données réelles. Ce travail s'inscrit dans un corpus de recherche récent sur la fermeture de boucle inter-robots entre USVs et AUVs, dont il représente l'extension vers un système complet multi-robots centralisé. Dans le paysage de la robotique maritime, les acteurs industriels comme Saildrone (USV), Kongsberg ou Hydroid (AUV) s'appuient encore largement sur l'USBL acoustique pour le positionnement sous-marin relatif. Une approche purement visuelle et géométrique comme celle-ci, si elle passe à l'échelle, pourrait réduire significativement le coût et la complexité logistique des flottes hétérogènes. Les auteurs ne mentionnent pas de partenaire industriel ni de calendrier de déploiement : il s'agit pour l'instant d'une contribution académique, validée sur terrain, mais sans annonce de commercialisation.

UEPertinent pour les opérateurs européens d'éoliennes offshore et d'infrastructures portuaires (Mer du Nord, Baltique) qui dépendent aujourd'hui de l'USBL acoustique coûteux pour les inspections sous-marines autonomes.

RecherchePaper
1 source
Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique
110arXiv cs.RO 

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

Une équipe de chercheurs a publié sur arXiv (2501.23087, version 3 en mai 2026) CoLA-Flow Policy, un framework d'apprentissage par imitation conçu pour la manipulation robotique sur des horizons d'action longs. L'approche combine le flow matching, une technique générative plus rapide que la diffusion, avec un espace d'action latent continu dans lequel les trajectoires sont encodées avant l'apprentissage du flux. Sur bancs de simulation et sur robots réels, les expériences affichent une amélioration de la régularité des trajectoires allant jusqu'à 93,7 % et un gain de taux de succès allant jusqu'à 25 points de pourcentage par rapport aux baselines de flow matching opérant directement dans l'espace d'action brut. L'inférence s'effectue en quasi-un seul pas, soit une vitesse nettement supérieure aux politiques basées sur la diffusion, qui nécessitent plusieurs étapes de débruitage. Le principal apport de CoLA-Flow est de découpler la structure globale du mouvement du bruit de contrôle bas niveau : en encodant les séquences d'actions en trajectoires latentes temporellement cohérentes, le modèle évite les oscillations et incohérences qui affectent les politiques de flow matching en espace brut. Pour un intégrateur ou un décideur industriel, cela signifie qu'une même architecture peut traiter des tâches de manipulation complexes sans latence rédhibitoire ni comportement erratique entre les étapes. Le conditionnement par nuages de points (point cloud) et la modulation multimodale à l'exécution via des indices visuels renforcent la robustesse dans des environnements réels non contrôlés, deux exigences critiques pour tout déploiement hors laboratoire. Ce travail s'inscrit dans une compétition intense entre architectures génératives pour les politiques robotiques. Diffusion Policy (Chi et al., 2023) a établi la référence en termes d'expressivité comportementale, mais son coût computationnel freine l'usage temps réel. Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA ont validé le flow matching comme alternative viable, au prix d'une instabilité accrue sur les horizons longs, précisément le problème que CoLA-Flow tente de résoudre via l'espace latent. Le framework s'apparente conceptuellement aux approches d'action chunking (ACT), mais opère au niveau du flux plutôt que de la prédiction directe. La troisième version de l'article suggère des révisions itératives significatives depuis janvier 2026 ; aucun déploiement industriel ni partenariat commercial n'est mentionné à ce stade, et les benchmarks présentés restent limités à des environnements de manipulation contrôlés.

RechercheOpinion
1 source
HarmoWAM : harmoniser manipulation généraliste et précise grâce aux modèles d'action du monde adaptatifs
111arXiv cs.RO 

HarmoWAM : harmoniser manipulation généraliste et précise grâce aux modèles d'action du monde adaptatifs

Une équipe de chercheurs a soumis HarmoWAM (arXiv:2605.10942) en mai 2026, un nouveau modèle d'action mondial (WAM) end-to-end pour le contrôle de robots manipulateurs. L'architecture unifie deux paradigmes antagonistes dans la littérature : l'"Imagine-then-Execute" (prédiction vidéo puis dynamique inverse), généralisable mais imprécis, et le "Joint Modeling" (actions et représentations visuelles comodélisées), précis mais limité à sa distribution d'entraînement. HarmoWAM combine un world model fournissant des priors physiques spatio-temporels, deux experts d'action complémentaires (un expert prédictif exploitant les dynamiques latentes, un expert réactif inférant les actions depuis l'évolution visuelle prédite), et un Process-Adaptive Gating Mechanism qui sélectionne automatiquement lequel activer selon la phase de la tâche. Sur six tâches réelles évaluées dans trois environnements jamais vus à l'entraînement, le système surpasse les meilleurs VLAs de 33 % et les WAMs concurrents de 29 % en généralisation zéro-shot. Le résultat stratégique n'est pas la performance brute, mais la capacité à généraliser sans réentraînement sur des configurations inédites -- le blocage central identifié par les intégrateurs industriels. Un robot précis en lab s'effondre dès qu'un fond, une position ou un objet change. En découplant transit généraliste et interaction précise, avec un mécanisme automatique pour basculer entre les deux selon la phase, HarmoWAM attaque directement le sim-to-real gap et la fragilité distributionnelle des VLAs actuels. Si ces gains se confirment sur des configurations plus variées, cela contredit l'hypothèse souvent défendue que précision et généralisation restent fondamentalement incompatibles à court terme. Les WAMs émergent comme alternative aux VLAs classiques, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), en intégrant explicitement un modèle prédictif du monde physique dans la boucle de contrôle. HarmoWAM cherche à réconcilier deux branches qui s'étaient développées séparément au sein de cette famille. L'article reste un preprint arXiv non encore évalué par les pairs, sans partenaire industriel cité ni calendrier de déploiement annoncé -- il s'agit donc d'une annonce de recherche, pas d'un produit shipé. Aucune entreprise française ou européenne n'est mentionnée dans les travaux. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme LIBERO ou RLBench, ainsi que des tâches longue durée multi-étapes, domaines où les WAMs montrent encore des limites reconnues.

IA physiqueOpinion
1 source
ORICF : un framework ouvert pour l'inférence et le contrôle en robotique
112arXiv cs.RO 

ORICF : un framework ouvert pour l'inférence et le contrôle en robotique

Des chercheurs ont publié le 12 mai 2026 sur arXiv (identifiant 2605.09656v1) un framework open source baptisé ORICF (Open Robotics Inference and Control Framework), conçu pour réduire le coût computationnel du déploiement de modèles d'IA sur robots mobiles. La plateforme, modulaire et agnostique aux modèles, permet de composer des pipelines d'inférence multimodaux via de simples fichiers de configuration YAML, sans modification du code source. Son mécanisme central, l'edge offloading, consiste à délocaliser les tâches d'inférence vers des machines externes proches du robot plutôt que de les exécuter en embarqué. Validé sur un robot mobile équipé de ROS2, le système combinait reconnaissance automatique de la parole (ASR), un grand modèle de langage (LLM) et un réseau de neurones convolutif (CNN) pour répondre à des questions orales sur les personnes détectées par sa caméra. Par rapport à une exécution entièrement embarquée, ORICF réduit l'utilisation des ressources de calcul côté robot de 83,16% et la consommation énergétique estimée de 65,8%, tout en préservant la modularité et la reproductibilité du pipeline. Ces résultats adressent l'un des freins les plus concrets au déploiement de modèles fondamentaux sur robots de service ou industriels : la contrainte matérielle embarquée. En déchargeant dynamiquement l'inférence sur des serveurs edge locaux ou des postes de travail voisins, ORICF rend envisageable l'utilisation de modèles lourds (LLM, VLM) sur plateformes à faible puissance de calcul. La spécification déclarative YAML simplifie également les changements de modèles ou de cibles matérielles, avantage concret pour les équipes intégration qui gèrent plusieurs configurations de déploiement. À noter cependant : la validation ne porte que sur un prototype unique en laboratoire, et les métriques de latence de bout en bout en conditions réelles ne sont pas détaillées dans le preprint, ce qui limite l'extrapolation aux environnements industriels. ORICF s'inscrit dans un mouvement plus large d'outillage de la robotique embarquée avec des modèles fondamentaux, alors que ROS2 s'est imposé comme infrastructure standard pour les robots de recherche et de plus en plus industriels. Plusieurs approches concurrentes ciblent le même problème : Isaac ROS de NVIDIA propose une pile d'inférence optimisée pour hardware Jetson, tandis que des acteurs comme Hailo adressent le déploiement sur puces dédiées. Le preprint ne cite pas d'affiliation universitaire ni d'entreprise sponsor visible, ce qui reste un signal à surveiller pour évaluer la maturité et la continuité du projet. Les prochaines étapes logiques seraient une validation sur des plateformes robotiques hétérogènes et une évaluation de latence en conditions opérationnelles réelles.

InfrastructureOpinion
1 source
Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance
113arXiv cs.RO 

Planification kinodynamique avec coût terminal et incertitude apprise dans l'espace état-croyance

Une équipe du laboratoire elpis-lab publie KiTe, un planificateur cinodynamique qui introduit une formulation par coût terminal pour la planification de mouvements robotiques sous incertitude, soumis sur arXiv en mai 2026. Le travail étend AO-RRT (Asymptotically Optimal Rapidly-exploring Random Trees), l'algorithme de référence en planification cinodynamique, en ajoutant un objectif de qualité de l'état terminal plutôt que de traiter l'atteinte du but comme une contrainte binaire de faisabilité. Les auteurs prouvent formellement que cette extension préserve l'optimalité asymptotique d'AO-RRT. KiTe est ensuite étendu à l'espace de croyance (belief space) : la distance de Wasserstein entre la distribution terminale estimée et l'objectif sert de métrique, dont les auteurs démontrent qu'elle améliore une borne inférieure sur la probabilité d'atteindre la région cible. Pour les systèmes sans modèle analytique d'incertitude, les dynamiques et le bruit de processus sont appris directement depuis les données. Les expériences couvrent Flappy Bird, Car Parking et Planar Pushing en simulation, puis une validation réelle sur poussée planaire, avec des taux de succès supérieurs aux planificateurs de référence dans l'ensemble des configurations testées. L'enjeu dépasse la démonstration académique : les planificateurs cinodynamiques existants optimisent le coût cumulatif de trajectoire sans modéliser explicitement la qualité de l'état d'arrivée, les rendant fragiles face au bruit capteur, aux erreurs de modèle ou aux dynamiques non linéaires. En formulant la qualité terminale comme objectif à part entière et en intégrant des modèles d'incertitude appris, KiTe adresse directement le gap démonstration-réalité qui freine le déploiement de planificateurs en manipulation non structurée ou en environnement industriel. Pour un ingénieur ou un intégrateur, cela se traduit par des trajectoires plus robustes sans exiger un modèle dynamique parfait du système. La planification cinodynamique en espace de croyance est un domaine concurrentiel face à des approches comme MPPI (Model Predictive Path Integral), iLQR sous incertitude, ou les planificateurs basés sur des processus gaussiens. AO-RRT, sur lequel KiTe s'appuie, est une référence établie pour la planification à optimalité garantie avec contraintes dynamiques. La contribution de KiTe est à la fois théorique (preuve d'optimalité préservée sous l'objectif augmenté) et pratique (apprentissage des dynamiques depuis les données), avec le code disponible publiquement sur GitHub (elpis-lab/KiTe), ce qui facilite la reproductibilité et l'adoption par la communauté.

RecherchePaper
1 source
HiVLA : un système de manipulation incarnée hiérarchique centré sur l'ancrage visuel
114arXiv cs.RO 

HiVLA : un système de manipulation incarnée hiérarchique centré sur l'ancrage visuel

Des chercheurs ont publié sur arXiv (identifiant 2604.14125) HiVLA, un cadre hiérarchique de manipulation robotique qui découple explicitement la planification sémantique de haut niveau du contrôle moteur de bas niveau dans les systèmes VLA (Vision-Language-Action). La couche haute s'appuie sur un planificateur VLM (Vision-Language Model) chargé de décomposer les tâches et de générer des plans structurés : une instruction de sous-tâche accompagnée d'une bounding box précise localisée visuellement sur l'objet cible. La couche basse traduit ensuite ce plan en actions physiques via un Diffusion Transformer (DiT) à flow-matching, doté d'un mécanisme de cross-attention en cascade original. Ce mécanisme fusionne séquentiellement le contexte global de la scène, des recadrages haute résolution centrés sur l'objet, et la sémantique de compétence, permettant au DiT de se concentrer uniquement sur l'exécution robuste. Les évaluations, conduites en simulation et en environnement réel, montrent que HiVLA surpasse les baselines end-to-end de l'état de l'art, avec des gains particulièrement marqués sur les tâches à longue horizon et la manipulation fine de petits objets dans des scènes encombrées. L'intérêt de cette approche réside dans la résolution d'un compromis bien documenté : le fine-tuning d'un grand modèle de vision-langage sur des données de contrôle robotique dégrade systématiquement les capacités de raisonnement généralisé héritées du modèle de base. En séparant les deux niveaux, HiVLA préserve les capacités zero-shot du VLM tout en permettant d'améliorer le composant moteur de façon indépendante. Pour un intégrateur ou un COO industriel, cela signifie potentiellement pouvoir mettre à jour la politique de bas niveau sans réentraîner le planificateur cognitif, ce qui réduit les coûts de maintenance et d'adaptation à de nouvelles tâches. La performance sur la manipulation fine dans des environnements désordonnés est notable, car c'est précisément le type de scénario qui met en défaut les VLA monolithiques comme RT-2 ou OpenVLA. Les approches VLA end-to-end comme pi-0 de Physical Intelligence, OpenVLA (UC Berkeley), ou GR00T N2 de NVIDIA ont démontré la viabilité du paradigme mais se heurtent au problème du catastrophic forgetting lors du fine-tuning sur des données de contrôle étroites. HiVLA s'inscrit dans une tendance vers des architectures hiérarchiques séparant raisonnement et exécution, direction qu'explorent également NVIDIA avec GR00T N2 et Google DeepMind avec ses travaux RT-X. Il reste cependant un preprint arXiv sans déploiement industriel annoncé ni affiliation commerciale visible dans le document disponible. Les résultats en environnement réel mentionnés dans l'abstract sont encourageants, mais les conditions expérimentales précises (types de tâches, métriques de succès, nombre d'essais) ne sont pas détaillées dans le résumé public, ce qui invite à la prudence avant toute généralisation à des applications industrielles.

RechercheOpinion
1 source
MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage
115arXiv cs.RO 

MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage

MapNav est un modèle de navigation guidée par le langage naturel (Vision-and-Language Navigation, VLN) publié sur arXiv (identifiant 2502.13451, version 5). L'idée centrale est de remplacer la mémoire par images historiques, habituellement conservée par les agents VLN pour contextualiser leurs décisions, par une carte sémantique annotée (Annotated Semantic Map, ASM). À chaque épisode de navigation, le système construit une vue de dessus (top-down) de l'environnement, la met à jour à chaque pas de temps, puis y appose des étiquettes textuelles explicites sur les objets et régions clés. Ce flux structuré est ensuite interprété par un modèle vision-langage (VLM) de grande taille dans une architecture end-to-end. Les auteurs annoncent des performances état de l'art sur benchmarks simulés et en environnement réel, et prévoient de publier code source et jeu de données associés. L'apport principal est architectural : substituer les trames brutes par une carte compacte et annotée réduit la charge mémoire et le coût de calcul, deux obstacles concrets à l'embarquement sur plateformes robotiques à ressources limitées. Les étiquettes textuelles directement inscrites sur la carte transforment une représentation abstraite en signal interprétable par un VLM sans reformater les données brutes, ce qui permet d'exploiter le raisonnement des grands modèles de façon plus directe. La validation en environnement réel, si elle est confirmée par des reproductions indépendantes, représenterait un progrès tangible dans la réduction du sim-to-real gap qui pénalise encore la majorité des agents VLN. Pour les intégrateurs de robots de service (logistique, hospitalier, résidentiel), une représentation aussi compacte facilite l'interfaçage avec des systèmes d'instruction en langage naturel. La navigation par instruction verbale en environnement inconnu est un problème de référence depuis le benchmark R2R (Room-to-Room, 2018). Les approches récentes (ETPNav, BEVBert, NavGPT) ont progressivement intégré des cartes métriques et des LLM, mais maintiennent souvent une fenêtre d'historique visuel coûteuse. MapNav s'inscrit dans la lignée des méthodes map-centric tout en capitalisant sur les VLM modernes. Cette publication est un preprint arXiv en cinquième révision, sans affiliation industrielle identifiée, et ses revendications SOTA devront être validées sur benchmarks standardisés par des équipes tierces, étape non négligeable dans une littérature VLN où les comparaisons sont souvent contestées.

IA physiqueOpinion
1 source
ALAM : des transitions latentes algébriquement cohérentes pour les modèles VLA
116arXiv cs.RO 

ALAM : des transitions latentes algébriquement cohérentes pour les modèles VLA

Une équipe de chercheurs publie sur arXiv (2605.10819) ALAM, un modèle d'action latente algébriquement cohérent conçu pour lever le principal frein au passage à l'échelle des modèles VLA (vision-language-action) : la rareté des données robot étiquetées par des actions. La méthode exploite des vidéos sans annotation d'action pour apprendre des transitions latentes structurées, en soumettant des triplets d'images à deux contraintes algébriques : cohérence par composition (la combinaison de deux transitions doit être une transition valide) et cohérence par inversion (une transition doit être réversible). L'encodeur ainsi pré-entraîné est ensuite gelé, et ses séquences de transitions latentes servent de cibles génératives auxiliaires, co-générées avec les actions robot via un objectif de flow matching conjoint. Sur MetaWorld MT50, ALAM fait passer le taux de succès moyen de 47,9 % à 85,0 %. Sur LIBERO, il progresse de 94,1 % à 98,1 %. Les erreurs d'additivité et de réversibilité sont réduites de 25 à 85 fois par rapport aux baselines de modèles d'action latente non structurés. Ces résultats sont significatifs pour les équipes qui développent des politiques robotiques généralisées. Le goulot d'étranglement des données étiquetées freine depuis plusieurs années la commercialisation des VLA : collecter des démonstrations téléopérées est coûteux et lent à l'échelle industrielle. ALAM démontre qu'il est possible d'extraire une géométrie de transition utile depuis des vidéos brutes, YouTube, flux industriels, simulations sans annotation, et de la transférer efficacement vers une politique opérationnelle. La structure algébrique du latent n'est pas seulement un artefact de représentation : les ablations confirment que c'est la synergie entre cette cohérence locale et le flow matching conjoint qui produit les gains les plus nets, ce qui valide une hypothèse longtemps débattue sur la nécessité d'une structure explicite dans les espaces d'action latente. Le contexte est celui d'une compétition dense autour des VLA généralisés. Physical Intelligence (pi0), NVIDIA (GR00T N2), Figure (Helix) et Google DeepMind investissent massivement dans des architectures capables de généraliser à de nouvelles tâches avec peu de données. Les approches antérieures de latent action learning (comme IDM ou des variantes GROOT) apprenaient des codes latents par reconstruction pure, sans garantie structurelle, ce qu'ALAM corrige explicitement. L'étape suivante naturelle serait de tester la méthode sur des benchmarks réels plus diversifiés et sur des horizons de tâche plus longs, deux axes où les VLA actuels montrent encore des fragilités documentées.

RechercheOpinion
1 source
Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique
117arXiv cs.RO 

Apprentissage sim-vers-réel zéro-shot pour robots : étude de préhension réactive par main dextérique

Une équipe de chercheurs a déposé en mai 2026 (arXiv:2605.09789) une méthode permettant le transfert zéro-shot de politiques de manipulation dextère depuis la simulation vers le robot physique, sans aucun fine-tuning sur données réelles. L'approche, baptisée Domain-Randomized Instance Set (DRIS), modifie la randomisation de domaine (DR) classique en propageant simultanément un ensemble d'instances physiques randomisées plutôt qu'une instance unique par épisode d'entraînement. Validée sur une tâche de rattrapage réactif d'objets en chute, la méthode obtient un transfert fiable avec seulement une dizaine d'instances simultanées. L'effecteur utilisé est délibérément contraignant : une plaque plate sans bords ni surface courbe, qui n'assure aucune stabilisation passive de l'objet capturé, à l'inverse des pinces ou surfaces enveloppantes couramment utilisées dans les benchmarks de rattrapage. Le sim-to-real gap reste l'un des principaux freins à l'industrialisation des robots manipulateurs apprenants. La DR classique, omniprésente dans les pipelines d'entraînement sur simulateurs comme IsaacGym ou MuJoCo, n'expose la politique qu'à une seule configuration physique par épisode, sous-échantillonnant ainsi la variabilité dynamique réelle. DRIS comble ce déficit en forçant la politique à optimiser simultanément sur plusieurs scénarios physiques plausibles, produisant selon l'analyse théorique des auteurs des politiques intrinsèquement plus robustes. Pour les intégrateurs, le bénéfice est direct : l'élimination du fine-tuning sur robot physique supprime un goulot d'étranglement coûteux, souvent plusieurs semaines de collecte de données en cellule réelle, qui freine aujourd'hui le déploiement de solutions de manipulation apprise en production. La manipulation dextère zéro-shot est un objectif de longue date dans la communauté robotique. DRIS s'inscrit dans la continuité de la randomisation adaptative, dont l'ADR d'OpenAI, popularisée avec le projet Dactyl en 2019, reste la référence historique. Elle se positionne comme orthogonale aux approches Visual-Language-Action (VLA) récentes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui réduisent le gap via la généralisation sémantique plutôt que physique, et pourrait s'intégrer dans ces pipelines. Les auteurs ne précisent pas de timeline pour des validations sur des tâches plus complexes comme l'assemblage ou la manipulation in-hand, deux domaines où le zéro-shot sim-to-real demeure un problème ouvert.

RechercheOpinion
1 source
Tests de robustesse par recherche pour un logiciel de robotique de reconditionnement d'ordinateurs portables
118arXiv cs.RO 

Tests de robustesse par recherche pour un logiciel de robotique de reconditionnement d'ordinateurs portables

Le Danish Technological Institute (DTI), centre de recherche appliquée danois spécialisé dans le transfert technologique vers l'industrie et le secteur public, publie PROBE, une méthode de test de robustesse pour les logiciels robotiques utilisés dans le reconditionnement de laptops. L'approche cible les modèles de détection d'objets embarqués dans ces robots, chargés d'identifier des vis pour le démontage ou des autocollants à retirer, dont les défaillances peuvent entraîner des dommages physiques aux appareils. PROBE s'appuie sur NSGA-II, un algorithme d'optimisation multi-objectifs évolutionnaire, pour explorer de manière systématique l'espace des perturbations d'images : l'objectif est de trouver les modifications minimales et localisées qui font échouer le modèle de détection, en équilibrant l'intensité de la perturbation, sa localisation spatiale et son effet sur le score de confiance du modèle. Les résultats quantitatifs sont significatifs : PROBE est 3 à 7 fois plus efficace qu'une recherche aléatoire pour générer des perturbations induisant des échecs, tout en utilisant des perturbations de magnitude plus faible, ce qui signifie qu'il expose des vulnérabilités réelles plutôt que des cas limites artificiels. Fait notable, les perturbations générées se transfèrent entre modèles différents, suggérant qu'elles révèlent des fragilités structurelles communes et non des artefacts liés à une architecture particulière. L'article introduit également l'usage de relations métamorphiques pour évaluer la stabilité des modèles même dans des cas non-défaillants, enrichissant le diagnostic de robustesse au-delà de la simple détection de pannes. Pour un intégrateur déployant des robots dans une chaîne de reconditionnement, cette approche offre un cadre de qualification objective des modèles de vision avant mise en production industrielle. Ce travail s'inscrit dans la trajectoire du DTI sur la robotique appliquée à l'économie circulaire, en lien direct avec le Plan d'action européen pour l'économie circulaire. Le reconditionnement automatisé de matériel informatique reste un segment de niche mais en croissance, où la précision de la détection d'objets est critique : une vis mal localisée peut endommager irrémédiablement une carte mère. Côté recherche, PROBE rejoint un corpus croissant de travaux sur les tests adversariaux pour systèmes embarqués, un domaine où les approches search-based testing (SBST) gagnent du terrain face aux méthodes purement statistiques. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un résultat académique (arXiv:2605.07530), sans timeline de productisation précisée.

UELe DTI, centre de recherche danois (EU), propose un cadre de qualification objectif pour les modèles de vision embarqués dans les robots de reconditionnement, en alignement avec le Plan d'action européen pour l'économie circulaire.

RecherchePaper
1 source
AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
119arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source
Estimation de pose 6D par régression de cartes de chaleur de points-clés avec réseaux de neurones résiduels RGB-D
120arXiv cs.RO 

Estimation de pose 6D par régression de cartes de chaleur de points-clés avec réseaux de neurones résiduels RGB-D

Une équipe de chercheurs a publié en mai 2026 sur arXiv un framework modulaire pour l'estimation de pose 6D fondé sur la régression de cartes de chaleur de points-clés. L'architecture proposée, baptisée HeatNet, articule deux blocs distincts : YOLOv10m pour la détection d'objets dans l'image, suivi d'un réseau ResNet18 qui prédit des heatmaps 2D à partir d'images RGB. Les coordonnées des points-clés extraites de ces cartes alimentent ensuite l'algorithme PnP RANSAC pour calculer la pose complète à six degrés de liberté (trois translations, trois rotations). Les auteurs ont par ailleurs développé une extension RGB-D intégrant les données de profondeur via une architecture dite de cross-fusion, permettant une interaction entre features visuelles et de profondeur à plusieurs niveaux du réseau. Ils ont également exploré des améliorations d'entraînement classiques, notamment des fonctions d'activation alternatives et des stratégies de scheduling du taux d'apprentissage. Sur le benchmark LINEMOD, le modèle RGB-seul atteint 84,50% de précision selon la métrique ADD, tandis que la version RGB-D monte à 92,41%. Le code source est disponible en open source sur GitHub (ameermasood/HeatNet). L'estimation de pose 6D reste un verrou opérationnel pour la manipulation robotique industrielle, le bin picking, le contrôle qualité automatisé et les systèmes de réalité augmentée. Le gain de 7,9 points entre le modèle RGB-seul et la fusion RGB-D traduit le bénéfice concret de la donnée de profondeur, un argument direct pour les intégrateurs équipant leurs cellules de caméras RGB-D de type Intel RealSense ou Azure Kinect. L'architecture modulaire heatmap-PnP RANSAC présente un avantage pratique : chaque brique est indépendante, ce qui simplifie l'adaptation à de nouveaux objets sans reprendre l'ensemble du pipeline. La mise à disposition du code facilite la reproductibilité, ce qui distingue ce travail d'un nombre important de publications académiques sans implémentation publique. L'estimation de pose 6D est un champ très actif, avec des approches concurrentes récentes comme FoundPose, GigaPose et les méthodes exploitant des fondations visuelles telles que DINOv2. Il convient de noter que LINEMOD, le dataset d'évaluation utilisé ici, est aujourd'hui considéré comme relativement accessible par rapport aux benchmarks plus exigeants du BOP Challenge ou à YCB-Video, qui comprend des objets en occlusion partielle et des configurations plus proches des conditions industrielles réelles. HeatNet se positionne donc davantage comme une baseline solide et reproductible que comme une proposition à l'état de l'art absolu. Les prochaines étapes naturelles seraient une évaluation sur ces benchmarks plus sévères et une intégration dans des pipelines de manipulation temps-réel pour mesurer la latence effective en conditions opérationnelles.

RecherchePaper
1 source
Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes
121arXiv cs.RO 

Évaluation d'une colonne vertébrale actionnée pour la locomotion agile de quadrupèdes

Une équipe de chercheurs a publié sur arXiv (preprint 2605.07988) une étude empirique évaluant les bénéfices d'une colonne vertébrale motorisée pour la locomotion agile de robots quadrupèdes. Les expériences ont été conduites en simulation MuJoCo sur le Silver Badger de MAB Robotics, startup polonaise spécialisée dans les robots à pattes. La colonne vertébrale testée dispose d'un seul degré de liberté (1-DOF) dans le plan sagittal, permettant flexion et extension verticale du tronc. Cinq scénarios ont été évalués : course à haute vitesse, montée de marches, franchissement de pentes à fort angle, saut d'obstacles et progression dans des passages étroits. Les résultats indiquent que le robot équipé du spine motorisé franchit des marches plus hautes, des pentes plus raides, des obstacles plus élevés et des passages plus étroits que sa version à tronc rigide, sans que des métriques précises (angles, hauteurs, vitesses) soient communiquées dans le résumé. Ces résultats confirment empiriquement un principe observé chez les animaux mais peu exploré en robotique commerciale : la mobilité du tronc étend les capacités locomotrices sans nécessiter une refonte architecturale majeure. Pour les intégrateurs et développeurs de plateformes mobiles, l'ajout d'un seul actionneur sur le tronc pourrait élargir le domaine d'opérabilité dans des environnements complexes, entrepôts, chantiers ou milieux semi-naturels. La limite majeure reste le cadre purement simulé de l'étude : les gains rapportés n'ont pas été validés sur matériel réel, et le sim-to-real gap constitue un obstacle classique pour ce type de modification mécanique, notamment en ce qui concerne les dynamiques de contact sol/pattes. La question du spine flexible en quadrupédie robotique n'est pas nouvelle, les études sur les félins et guépards ayant démontré que la flexion du tronc allonge l'enjambée et améliore l'efficacité énergétique. En pratique, des plateformes comme ANYmal d'ANYbotics (Suisse) ou Spot de Boston Dynamics ont opté pour des troncs rigides, privilégiant la simplicité de contrôle et la robustesse mécanique. MAB Robotics, entreprise polonaise de l'écosystème UE, positionne le Silver Badger comme plateforme de recherche ouverte à ce type d'expérimentation. Les suites logiques incluent une validation sur robot physique, un spine multi-DOF, et une mesure de l'impact sur la consommation énergétique, paramètre absent de l'étude actuelle.

UEMAB Robotics (Pologne, UE) fournit la plateforme Silver Badger pour cette étude, confirmant son rôle de vecteur de recherche ouverte dans l'écosystème robotique européen des quadrupèdes, aux côtés d'ANYbotics (Suisse).

RecherchePaper
1 source
Bi3 : un jeu de données biplateforme, biculturel et bipersonnel pour la navigation des robots sociaux
122arXiv cs.RO 

Bi3 : un jeu de données biplateforme, biculturel et bipersonnel pour la navigation des robots sociaux

Bi3 est un jeu de données pour la navigation sociale de robots en espaces contraints, publié en preprint sur arXiv en mai 2026. L'expérience place systématiquement un robot face à deux humains dans un espace de laboratoire restreint, avec 74 participants recrutés sur deux sites : un aux États-Unis, un en France. Le dataset totalise 10,5 heures de trajectoires avec vérité terrain pour humains et robots, des flux vidéo RGB et des évaluations subjectives des participants sur les performances du robot. Cinq algorithmes de navigation distincts ont été testés sur deux plateformes robotiques différentes, ce qui constitue une couverture algorithmique et matérielle inédite dans ce domaine. La navigation sociale en milieu dense reste l'un des verrous techniques majeurs de la robotique de service et de la logistique en environnement humain. Les benchmarks existants souffrent généralement d'un biais culturel marqué et d'une densité d'interaction artificiellement faible. Bi3 cible ces lacunes directement : la dimension biculturelle France/USA permet de tester si les comportements proximaux humains varient selon les normes sociales locales, une hypothèse rarement éprouvée empiriquement. Les métriques publiées, densité d'interaction et vélocité humaine, montrent une complexité comportementale supérieure aux datasets précédents, ce qui en fait un terrain d'évaluation plus exigeant pour les modèles de prédiction de mouvement et les politiques de contrôle de navigation. Ce dataset s'inscrit dans l'effort collectif de la communauté robotique pour réduire l'écart entre simulations et déploiements réels. La présence d'un site de collecte en France est notable : elle apporte une représentation européenne rare dans ce type de benchmark, où les données américaines ou asiatiques dominent historiquement. Bi3 est conçu comme une ressource ouverte pour entraîner des architectures VLA (Vision-Language-Action) et des politiques de navigation en espaces denses, ainsi que des modèles de prédiction de mouvement humain. À ce stade, il s'agit d'un preprint académique, pas d'un déploiement opérationnel. Les suites naturelles incluent l'intégration dans des benchmarks standardisés et l'utilisation pour affiner des politiques de navigation sur des AMR (Autonomous Mobile Robots) en environnement industriel ou hospitalier.

UELa présence d'un site de collecte en France apporte des données comportementales européennes dans un benchmark de navigation sociale, offrant une référence plus représentative pour calibrer des AMR déployés en milieu hospitalier ou industriel en Europe.

RecherchePaper
1 source
Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde
123arXiv cs.RO 

Le futur est-il compatible ? Diagnostic de la cohérence dynamique dans les modèles d'action du monde

Une équipe de recherche a soumis le 12 mai 2026 sur arXiv (référence 2605.07514) une étude ciblant un angle mort des World Action Models (WAMs) : la cohérence dynamique entre les actions prédites et les transitions d'état qu'elles sont supposées engendrer. Les WAMs sont des modèles capables de générer des "rollouts" imaginés, c'est-à-dire des séquences futures simulées d'observations et d'actions, pour guider la prise de décision d'un agent robotique. Les auteurs montrent, à travers une étude systématique de modèles de joint-prediction et d'inverse-dynamics, que ces futurs imaginés peuvent être visuellement plausibles tout en étant dynamiquement incompatibles avec la séquence d'actions associée. Ils définissent formellement l'action-state consistency comme l'alignement entre les actions prédites et les transitions d'état induites, et établissent empiriquement que cette métrique distingue fiablement les rollouts réussis des rollouts échoués sur une large variété de tâches. En s'appuyant sur ces résultats, ils proposent une stratégie dite "value-free consensus" pour la sélection à l'inférence : les candidats rollouts sont classés par accord entre futurs prédits, sans recours à un modèle de récompense ni à un entraînement supplémentaire. Cette stratégie améliore les taux de succès sur les benchmarks RoboCasa et RoboTwin 2.0. L'enjeu pratique est direct pour les équipes qui déploient des politiques basées sur des world models : une inconsistance action-état non détectée peut propager des erreurs tout au long d'une séquence planifiée, rendant les rollouts trompeurs même lorsqu'ils semblent visuellement convaincants. Le fait que la métrique suive des tendances similaires aux estimations de valeur apprises suggère qu'elle capture une structure pertinente pour la décision, au-delà du réalisme perceptif. La stratégie consensus sans valeur est notable car elle élimine le besoin d'un reward model, souvent coûteux à entraîner et fragile à distribuer, ce qui la rend directement utilisable dans des pipelines de déploiement existants. Les WAMs s'inscrivent dans le courant plus large des VLAs (Vision-Language-Action models) et des approches de planification par world model, où des systèmes comme DreamerV3 ou des dérivés de modèles de diffusion cherchent à faire planifier un agent dans un espace latent imaginé. Les benchmarks utilisés, RoboCasa et RoboTwin 2.0, sont des environnements de manipulation simulée de référence dans la communauté. Les auteurs identifient également un phénomène limite qu'ils nomment "background collapse" : les trajectoires échouées à faible dynamique peuvent paraître artificiellement cohérentes car prédire un futur statique est plus facile, ce qui constitue un biais à surveiller lors de l'utilisation de cette métrique. Les prochaines étapes naturelles seraient de valider la stratégie consensus sur des plateformes physiques et d'étendre l'analyse à des modèles de type diffusion policy.

RechercheActu
1 source
Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres
124arXiv cs.RO 

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion
1 source
TAG-K : Kaczmarz glouton à moyenne de queue pour l'estimation en ligne efficace des paramètres inertiels
125arXiv cs.RO 

TAG-K : Kaczmarz glouton à moyenne de queue pour l'estimation en ligne efficace des paramètres inertiels

Des chercheurs du laboratoire A2R (Agile and Adaptive Robotics Lab) ont publié sur arXiv un algorithme baptisé TAG-K (Tail-Averaged Greedy Kaczmarz), conçu pour l'estimation en ligne des paramètres inertiels de systèmes robotiques. La méthode combine deux extensions du solveur de Kaczmarz : une sélection gloutonne randomisée des lignes du système pour accélérer la convergence, et un moyennage de queue (tail averaging) pour améliorer la robustesse au bruit de mesure. Évalué sur des benchmarks synthétiques et des tâches de suivi de trajectoire sur quadrirotor, TAG-K affiche des temps de calcul 1,5 à 1,9 fois inférieurs à ceux des méthodes de référence sur CPU de classe laptop, et 4,8 à 20,7 fois inférieurs sur microcontrôleurs embarqués. L'algorithme réduit l'erreur d'estimation de 25 % et améliore les performances de suivi d'un facteur proche de 2 par rapport aux moindres carrés récursifs (RLS) et au filtre de Kalman (KF). L'enjeu est de résoudre un compromis que les approches classiques peinent à tenir : être à la fois rapide et robuste sur matériel contraint. Pour un intégrateur ou un ingénieur travaillant sur des robots à charge variable, bras industriels, drones de livraison ou robots humanoïdes, l'estimation en ligne des paramètres inertiels est indispensable pour adapter le contrôleur en temps réel aux changements de payload, à l'usure mécanique et aux interactions imprévues. La capacité de TAG-K à atteindre ces performances sur microcontrôleurs embarqués élargit significativement le périmètre de déploiement pour les systèmes à ressources limitées. La complexité par itération reste faible, ce qui garantit une latence prévisible en boucle de contrôle, une contrainte critique pour les applications temps-réel. Le solveur de Kaczmarz est une méthode itérative classique d'algèbre linéaire numérique, historiquement peu adoptée en estimation robotique au profit du RLS ou des filtres de Kalman. TAG-K s'inscrit dans l'effort plus large de la communauté pour adapter les algorithmes d'identification de paramètres aux contraintes embarquées. Le code source et la documentation sont accessibles sur a2r-lab.org/TAG-K/. Il convient de noter que l'article reste à ce stade un preprint (arXiv 2510.04839v2), sans validation par les pairs dans une conférence ou revue internationale. Les suites naturelles seraient une évaluation sur des plateformes plus complexes, bras articulés multi-DOF ou robots humanoïdes à haute dynamique, et une intégration dans des frameworks de contrôle adaptatif open-source existants.

RecherchePaper
1 source
Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
126arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion
1 source
CommandSwarm : génération d'arbres de comportement en langage naturel pour essaims robotiques avec contraintes de sécurité
127arXiv cs.RO 

CommandSwarm : génération d'arbres de comportement en langage naturel pour essaims robotiques avec contraintes de sécurité

CommandSwarm est un pipeline qui convertit des commandes en langage naturel, vocales ou textuelles, en arbres de comportement (behavior trees, BT) au format XML pour piloter des essaims de robots. Publiée en mai 2026 sur arXiv (preprint 2605.07764), l'architecture enchaîne traduction multilingue, filtrage de sécurité au niveau commande, prompting contraint, un LLM adapté par LoRA, et un validateur déterministe basé sur une liste blanche de primitives d'essaim autorisées. Onze LLMs open source de 6,7 à 14 milliards de paramètres, tous quantifiés en 4 bits, ont été évalués : Falcon3-Instruct-10B et Mistral-7B-v3 ressortent comme les meilleurs candidats en few-shot prompting, avec des scores BLEU supérieurs à 0,60. Après adaptation LoRA sur un corpus synthétique de 2 063 paires instruction-BT, le Falcon3-Instruct-10B passe d'un BLEU zero-shot de 0,267 à 0,663, d'un ROUGE-L de 0,366 à 0,692, et d'une validité syntaxique acceptée par le parser de 0 % à 72 %. Pour le front-end multilingue, SeamlessM4T v2-large et EuroLLM-9B, initiative européenne, offrent le meilleur compromis qualité-latence. La conclusion opérationnelle centrale de ces travaux est que la qualité de génération seule est insuffisante pour un déploiement autonome : sans parser de validation et filtre de sécurité en sortie, même les meilleurs modèles produisent des plans non exécutables ou potentiellement dangereux. Pour les intégrateurs robotiques et les décideurs industriels, cela confirme que les garde-fous déterministes sont non négociables, quel que soit le score BLEU affiché par un modèle. La progression de 0 % à 72 % de validité syntaxique après fine-tuning souligne également que l'adaptation domaine-spécifique reste indispensable : aucun LLM généraliste, même performant, ne maîtrise spontanément la syntaxe XML des BTs robotiques. Les behavior trees se sont imposés depuis une dizaine d'années comme le paradigme de contrôle dominant en robotique avancée, supplantant les machines à états finis classiques. La commande par langage naturel rejoint une tendance de fond déjà illustrée par ProgPrompt (Microsoft/Stanford, 2022), SayCan (Google, 2022), et les VLAs Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) pour robots individuels. CommandSwarm se positionne sur le créneau des essaims multi-agents, où la coordination collective et les risques d'interférence rendent la validation formelle encore plus critique qu'en robotique unitaire. Ce travail reste à ce stade un preprint de recherche évalué sur scénarios de simulation ; aucun déploiement sur hardware physique n'est annoncé. Les prochaines étapes attendues comprennent des tests sur robots réels, l'évaluation de la latence temps-réel en conditions opérationnelles, et l'extension du corpus d'entraînement au-delà des 2 063 exemples synthétiques actuels.

UEEuroLLM-9B, initiative européenne, ressort comme l'un des meilleurs compromis qualité-latence pour le front-end multilingue, ce qui lui donne un avantage potentiel dans les projets robotiques financés ou réglementés en Europe.

RecherchePaper
1 source
RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée
128arXiv cs.RO 

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Une équipe de chercheurs a publié en mai 2025 RobotEQ (arXiv:2605.06234), un benchmark conçu pour évaluer ce qu'ils appellent l'intelligence active dans les systèmes d'IA incarnée. Contrairement aux approches actuelles, où un robot exécute des tâches sur instruction explicite de l'utilisateur (intelligence passive), l'intelligence active désigne la capacité d'un système à identifier de manière autonome quelles actions sont socialement acceptables ou interdites, sans consigne préalable. Pour mesurer cette aptitude, les auteurs ont constitué RobotEQ-Data : un jeu de données de 1 900 images en vue égocentrique, couvrant 10 catégories scénario typiques de l'IA incarnée et 56 sous-catégories. Via annotation manuelle intensive, ils ont produit 5 353 questions de jugement d'action et 1 286 questions d'ancrage spatial, formant ensemble le socle du benchmark RobotEQ-Bench. Les résultats d'évaluation sur les modèles de pointe actuels sont sans ambiguïté : aucun ne satisfait de manière fiable aux exigences de l'intelligence active, avec des lacunes particulièrement marquées sur l'ancrage spatial, c'est-à-dire la capacité à localiser précisément les objets ou zones pertinents dans une scène pour motiver un comportement conforme aux normes sociales. L'étude montre cependant qu'intégrer des bases de connaissances externes via des techniques de RAG (Retrieval-Augmented Generation) améliore significativement les performances, ce qui suggère une piste concrète pour les développeurs de systèmes robotiques sociaux. Pour les industriels et intégrateurs, ce résultat pointe une limite critique avant tout déploiement en environnement humain non contrôlé : les robots actuels ne sont pas équipés pour naviguer les conventions implicites du quotidien. RobotEQ s'inscrit dans un effort académique plus large visant à combler le fossé entre capacités de manipulation assistée et autonomie sociale réelle, un sujet de plus en plus pressant à mesure que les robots humanoïdes entrent dans des espaces partagés avec des humains. Les grandes plateformes évaluées ne sont pas nommées explicitement dans l'abstract, mais le benchmark cible les VLMs (Vision-Language Models) utilisés dans les architectures d'IA incarnée actuelles, comme ceux sous-tendant des systèmes tels que Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Aucun partenaire industriel ni calendrier de déploiement n'est annoncé, ce papier restant à ce stade une contribution de recherche fondamentale avec dataset et benchmark disponibles pour la communauté.

RecherchePaper
1 source
Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement
129arXiv cs.RO 

Parkour humanoïde perceptif : enchaînement de compétences dynamiques par correspondance de mouvement

Des chercheurs ont publié sur arXiv (arxiv:2502.15827, version révisée en mai 2026) une architecture modulaire baptisée Perceptive Humanoid Parkour (PHP), qui permet à un robot humanoïde d'enchaîner des séquences de parkour autonomes sur des parcours d'obstacles variés. Le système a été validé sur un robot Unitree G1 en conditions réelles : il peut franchir des obstacles atteignant 1,25 mètre de hauteur, soit 96 % de la taille du robot, et choisit dynamiquement entre quatre primitives de mouvement (enjamber, grimper, sauter par-dessus, rouler en descente) selon la géométrie détectée. La seule entrée sensorielle utilisée est une caméra de profondeur embarquée couplée à une commande de vitesse discrète en 2D, sans GPS ni cartographie externe. Ce qui distingue PHP des approches précédentes est la combinaison de deux techniques jusqu'ici rarement couplées à cette échelle : le motion matching, qui assemble des primitives gestuelles humaines retargetées via une recherche par plus proche voisin dans un espace de features, et la distillation de politiques RL multi-compétences via DAgger. Le résultat concret est un robot capable de décision contextuelle en boucle fermée sur des obstacles dont la position change en temps réel, sans recalcul de trajectoire globale. Pour les intégrateurs industriels et les décideurs robotique, cela valide empiriquement que la composition de skills à horizon long dans un environnement non contrôlé n'est plus seulement une démonstration en laboratoire, mais un comportement reproductible sur matériel standard. Le Unitree G1 est un humanoïde de série à environ 16 000 dollars, ce qui donne à ces résultats une portée plus large que des travaux réalisés sur des plateformes propriétaires. La recherche sur la locomotion humanoïde agile s'est intensifiée depuis les travaux pionniers de Boston Dynamics sur Atlas et les démonstrations de parkour d'Agility Robotics ; côté apprentissage automatique, des équipes comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2) travaillent sur des politiques généralisées, mais avec un focus manipulation plus que locomotion acrobatique. PHP s'inscrit dans une tendance académique distincte, orientée expressivité du mouvement humain plutôt que productivité industrielle. La prochaine étape naturelle sera de tester la robustesse sur des obstacles non vus à l'entraînement et de mesurer les taux d'échec sur des runs prolongés, deux métriques absentes du papier actuel.

HumanoïdesPaper
1 source
Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel
130arXiv cs.RO 

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

Une équipe de chercheurs a formalisé dans un preprint arXiv (réf. 2604.08059) un cadre de mise à jour sécurisée pour les modules de capacités d'agents embarqués. Le problème est concret: lorsqu'un robot améliore ses capacités via des mises à jour de modules logiciels, comment garantir que ces déploiements ne violent pas les contraintes de sécurité, les hypothèses d'exécution ou les mécanismes de récupération? Le framework introduit quatre vérifications de compatibilité (interface, politique, comportementale, récupération) organisées en pipeline séquentiel: validation du candidat, évaluation sandbox, déploiement shadow, activation contrôlée, monitoring en ligne et rollback. Sur 6 cycles de mise à jour avec 15 graines aléatoires, une mise à jour naïve atteint 72,9% de succès sur les tâches mais génère 60% d'activations non sécurisées au dernier cycle; le framework gouverné maintient 67,4% de succès avec zéro activation non sécurisée sur l'ensemble des cycles (test de Wilcoxon, p=0,003). Le shadow deployment détecte 40% des régressions invisibles à la sandbox seule, et le rollback réussit dans 79,8% des scénarios de dérive post-activation. Pour les intégrateurs de systèmes robotiques et les décideurs B2B, ce résultat répond à une question stratégique: peut-on industrialiser la mise à jour continue d'un robot en production sans requalification complète du système? La démonstration montre que c'est faisable, la perte de performance étant limitée à 5,5 points de taux de succès en échange d'une garantie de sécurité absolue. La découverte clé porte sur le shadow deployment: 40% des régressions n'apparaissent pas en environnement sandbox, invalidant les workflows de qualification qui s'y arrêtent. Cela pose les bases d'un CI/CD robotique viable, à condition d'inclure une étape shadow en environnement réel. Les travaux antérieurs avaient étudié séparément le packaging modulaire, l'évolution des capacités et la gouvernance à l'exécution, sans les assembler en pipeline cohérent. Cette publication formalise la "governed capability evolution" comme problème de systèmes de premier ordre, directement pertinent pour les architectures à base de VLA (Vision-Language-Action models) qui évoluent rapidement sur des plateformes comme Figure 03, Optimus Gen 3 ou GR00T N2. L'article reste un travail de recherche évalué en simulation, sans déploiement commercial cité; les prochaines étapes attendues sont une validation sur plateformes physiques réelles et une intégration dans des pipelines MLOps robotiques.

RecherchePaper
1 source
Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot
131arXiv cs.RO 

Quand la vie vous donne du BC, créez des fonctions Q pour l'apprentissage par renforcement sur robot

Des chercheurs du RAI Institute publient sur arXiv (2605.05172, mai 2026) Q2RL, un algorithme d'apprentissage offline-to-online conçu pour améliorer automatiquement des politiques de contrôle robotique après une phase d'imitation. La méthode repose sur deux composants distincts : Q-Estimation, qui extrait une Q-function à partir d'une politique de Behavior Cloning (BC) en quelques étapes d'interaction avec l'environnement, et Q-Gating, qui alterne dynamiquement entre les actions BC et les actions RL en comparant leurs Q-values respectives pour guider la collecte de données d'entraînement. Sur les benchmarks standards D4RL et robomimic, Q2RL surpasse les meilleures baselines offline-to-online existantes en taux de succès et en vitesse de convergence. Appliqué directement sur robot réel, il apprend des politiques robustes pour des tâches de manipulation à contact riche et haute précision, assemblage de tuyaux et kitting industriel, en 1 à 2 heures d'interaction, avec des taux de succès atteignant 100 % et un gain jusqu'à 3,75x par rapport à la politique BC initiale. L'enjeu pratique est significatif : le BC reste la méthode dominante pour apprendre à partir de démonstrations humaines, notamment dans les architectures VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence, mais il souffre d'une limite structurelle, il ne s'améliore pas seul une fois déployé. Les approches offline-to-online existantes se heurtent à un problème de distribution mismatch : en passant à l'apprentissage en ligne, le RL tend à écraser les bonnes actions apprises hors ligne. Q2RL adresse ce problème directement via le Q-Gating, qui agit comme un filtre de qualité empêchant la dégradation de la politique. Un délai de convergence de 1 à 2 heures sur robot physique est une performance notable pour des tâches à contact, où la variabilité mécanique rend le sim-to-real particulièrement difficile. Le contexte est celui d'une course intense à l'autonomie post-démonstration. Physical Intelligence (Pi-0), Figure AI, Apptronik et d'autres misent massivement sur le fine-tuning en ligne pour réduire le gap démo-to-deployment. Q2RL s'inscrit dans cette dynamique mais en ciblant l'efficacité computationnelle : l'algorithme est conçu pour tourner sans infrastructure cloud lourde, directement sur le contrôleur embarqué. Le RAI Institute, relativement discret sur la scène robotique, positionne ici une contribution technique solide sur un verrou bien identifié. Le code et les vidéos sont disponibles publiquement, ce qui facilite la reproductibilité et l'éventuelle intégration dans des pipelines industriels existants.

IA physiquePaper
1 source
De la saisie à l'insertion : assemblage de précision assisté par retour tactile sous tolérances inférieures au millimètre
132arXiv cs.RO 

De la saisie à l'insertion : assemblage de précision assisté par retour tactile sous tolérances inférieures au millimètre

Une équipe de chercheurs a publié en mai 2026 sur arXiv (2605.04649) une méthode en deux étapes pour l'assemblage robotique sous tolérances sub-millimétriques, combinant apprentissage par imitation (IL) et apprentissage par renforcement (RL) augmentés par retour tactile. Le premier module IL apprend l'approche et la saisie du peg, tandis qu'un second module RL se charge de l'insertion proprement dite, incluant la récupération sur contact. Deux contributions techniques encadrent le système : le "tactile group sampling", qui augmente la couverture des segments de contact critiques en entraînement, et un "tactile critic" pour une meilleure évaluation des politiques. Testée sur cinq géométries de trous et trois niveaux de jeu, la méthode atteint un taux de réussite de 67 % sous le jeu le plus sévère (0,05 mm), tout en réduisant la force de contact maximale de 60 % et le couple de 44 % par rapport aux approches de référence. L'assemblage sous tolérances inférieures à 0,1 mm est l'un des goulots d'étranglement persistants de la robotique industrielle : une erreur de pose de quelques centièmes suffit à provoquer un coincement (jamming) ou la destruction d'une pièce à haute valeur. Que ce travail maintienne des forces basses tout en conservant un taux de succès substantiel répond directement aux critères des équipementiers électroniques, médicaux et de la mécanique fine. L'approche confirme surtout que les capteurs tactiles, longtemps relégués derrière la vision, peuvent combler le sim-to-real gap dans les tâches contact-riches, là où la caméra manque de résolution locale, un argument de poids pour les intégrateurs qui dimensionnent leurs cellules. Ce travail s'inscrit dans la lignée des recherches peg-in-hole initiées par les labos MIT et Stanford, mais l'accent sur la sécurité des forces le distingue des approches orientées performance brute. Sur le marché, les fabricants de bras collaboratifs (Universal Robots, FANUC, ABB) et les spécialistes du capteur tactile (Contactile, Xela Robotics, Touchlab) seront attentifs à la reproductibilité sur hardware réel. Le preprint reste au stade de la preuve de concept en laboratoire, sans pilote industriel annoncé ; les prolongements logiques incluent des géométries asymétriques, des matériaux déformables et une validation temps-réel embarquée pour tenir les cadences de production.

UELes fabricants européens de bras collaboratifs (Universal Robots, ABB) et les intégrateurs de cellules d'assemblage de précision pourraient s'appuyer sur cette approche pour adresser les goulots d'étranglement dans l'électronique et le médical, secteurs où les tolérances sub-millimétriques sont la norme.

RecherchePaper
1 source
ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA
133arXiv cs.RO 

ConsisVLA-4D : vers une meilleure cohérence spatiotemporelle pour la manipulation robotique avec un modèle VLA

Une équipe de recherche publie ce 7 mai 2026 ConsisVLA-4D (arXiv:2605.05126), un framework unifié pour la manipulation robotique qui cherche à résoudre deux angles morts structurels des modèles Vision-Language-Action actuels : la perception spatiale 3D et le raisonnement temporel 4D. L'architecture repose sur trois modules complémentaires. Le premier, CV-Aligner, filtre les régions pertinentes à l'instruction en cours et aligne les identités d'objets entre plusieurs points de vue, assurant une cohérence sémantique inter-caméras. Le second, CO-Fuser, élimine les ambiguïtés de relations spatiales entre objets via des représentations latentes compactes, sans recourir à des capteurs de profondeur dédiés. Le troisième, CS-Thinker, combine les tokens sémantiques de CV-Aligner et les tokens géométriques de CO-Fuser pour construire une représentation implicite des dynamiques locales et globales de la scène, permettant un raisonnement visuel continu au fil de l'exécution. Les auteurs rapportent des gains de 21,6 % sur le benchmark LIBERO et de 41,5 % en environnement réel par rapport à OpenVLA, avec des accélérations d'inférence respectives de 2,3x et 2,4x. Le code est publié en open source. Ces résultats sont significatifs pour le débat, toujours ouvert dans le secteur, sur la capacité des VLA à passer de la démonstration contrôlée au déploiement réel. Le gain le plus notable est celui en conditions réelles (+41,5 % vs +21,6 % en simulation), ce qui suggère que la cohérence spatiotemporelle adresse précisément le sim-to-real gap que d'autres architectures peinent à combler. L'absence de capteur de profondeur dédié est également un point concret pour les intégrateurs industriels : réduire la dépendance à des capteurs supplémentaires diminue le coût de déploiement et la surface de défaillance. L'accélération d'inférence de 2,3x à 2,4x, si elle se confirme dans des cycles de manipulation industriels (pick-and-place, assemblage), est un argument directement actionnable pour des COO cherchant à calibrer le throughput de cellules robotisées. Il convient toutefois de noter que les métriques sont mesurées contre OpenVLA, qui reste une baseline académique, et non contre des systèmes commerciaux comme pi-0 (Physical Intelligence) ou Helix (Figure), ce qui limite la portée comparative. Les modèles VLA de première génération, dont OpenVLA et RT-2, se sont construits sur des pipelines essentiellement 2D, héritant des architectures vision-langage conçues pour la compréhension d'images statiques. La contrainte de cohérence spatiotemporelle que ConsisVLA-4D formalise est un problème que l'ensemble des acteurs du secteur, Physical Intelligence avec pi-0, DeepMind avec RT-X, et Boston Dynamics sur le plan applicatif, tentent de résoudre par des voies différentes (données de préentraînement massives, retour haptique, diffusion de politiques). Dans le paysage français et européen, des entreprises comme Enchanted Tools et Wandercraft travaillent sur des problématiques adjacentes de contrôle robuste en environnement non structuré, où la perception multi-vue est également un verrou. La prochaine étape logique pour ConsisVLA-4D sera de confronter le framework à des tâches longue-horizon et à des environnements non rigides, deux cas d'usage encore peu couverts par le benchmark LIBERO.

UELes entreprises européennes comme Enchanted Tools et Wandercraft, confrontées au verrou de la perception multi-vue en environnement non structuré, pourraient intégrer le framework open-source ConsisVLA-4D pour renforcer leur contrôle robuste sans capteur de profondeur dédié.

💬 Le gain en conditions réelles (+41,5 %) qui dépasse celui en simulation, c'est le signe que quelque chose de structurel est résolu, pas juste un overfitting sur benchmark. Pas de capteur de profondeur dédié en plus, ce qui change vraiment le calcul pour l'intégration industrielle. Bon, la baseline c'est OpenVLA, pas pi-0, donc on garde les pieds sur terre.

IA physiqueOpinion
1 source
Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots
134arXiv cs.RO 

Apprendre à oublier : mémoire épisodique hiérarchique pour le déploiement à long terme des robots

Des chercheurs ont publié H²-EMV, un cadre logiciel permettant aux robots humanoïdes de gérer sélectivement leur mémoire épisodique sur le long terme. Le problème adressé est concret : lorsqu'un utilisateur demande « Où as-tu mis mes clés ? » ou « Pourquoi la tâche a-t-elle échoué ? », le robot doit interroger un historique d'expériences captées en continu depuis des capteurs multimodaux. Sans filtrage, ce volume dépasse rapidement les capacités de stockage et rend les requêtes en temps réel impraticables. H²-EMV construit une mémoire hiérarchique de manière incrémentale, applique un oubli sélectif via un modèle de langage qui évalue la pertinence de chaque événement selon des règles en langage naturel, puis affine ces règles à partir des retours utilisateur. Testé sur des simulations de tâches domestiques et sur 20,5 heures d'enregistrements réels collectés avec le robot humanoïde ARMAR-7, le système réduit la taille mémoire de 45 % et le temps de calcul des requêtes de 35 %, tout en maintenant la précision des réponses. En deuxième session, cette précision progresse de 70 % grâce à l'adaptation aux priorités individuelles de l'utilisateur. Pour les déploiements longs de robots de service, ce résultat lève un frein non résolu. La mémoire épisodique est un point de friction majeur : un robot qui efface tout entre deux sessions est inutilisable sur la durée, mais stocker sans discrimination devient ingérable sur plusieurs semaines ou plusieurs mois. H²-EMV démontre qu'un oubli structuré et appris ne dégrade pas les performances de question-réponse, et que celles-ci s'améliorent avec l'usage, propriété rare dans les systèmes robotiques actuels. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des assistants humanoïdes capables de dialogue contextuel persistant sans infrastructure de stockage surdimensionnée, condition nécessaire à un déploiement viable en environnement réel. ARMAR-7 est un humanoïde développé à l'Institut für Anthropomatik und Robotik du Karlsruhe Institute of Technology (KIT), en Allemagne, dont les recherches en interaction homme-robot figurent parmi les plus avancées en Europe. La gestion de mémoire long terme en robotique est un champ actif : des approches comme MemoryBank ou les bases vectorielles couplées à des grands modèles de langage ciblent des problèmes comparables, mais rarement sur des horizons temporels aussi longs ni sur des données réelles aussi volumineuses. L'article (arXiv:2604.11306v2) reste un preprint non encore évalué en conférence à comité de lecture ; les résultats annoncés attendent une confirmation indépendante. Les prochaines étapes naturelles sont une validation sur d'autres plateformes humanoïdes et des horizons de déploiement encore plus étendus pour confirmer la stabilité de l'apprentissage des règles d'oubli.

UEH²-EMV est développé et validé sur ARMAR-7, humanoïde du KIT (Allemagne), positionnant un laboratoire européen à la pointe de la gestion mémoire long terme pour robots de service.

RecherchePaper
1 source
Contrôle à sûreté critique sous observabilité partielle : POMDP d'atteinte-évitement et contrôle dans l'espace des croyances
135arXiv cs.RO 

Contrôle à sûreté critique sous observabilité partielle : POMDP d'atteinte-évitement et contrôle dans l'espace des croyances

Des chercheurs ont publié sur arXiv (référence 2503.10572v2) une architecture de contrôle en temps réel pour robots évoluant dans des environnements partiellement observables, c'est-à-dire des situations où le robot ne perçoit qu'une fraction de son état réel. Le problème traité est celui des POMDP reach-avoid (Partially Observable Markov Decision Processes) : comment guider un robot vers un objectif tout en évitant des obstacles, quand ses capteurs sont bruités ou incomplets. L'approche proposée découple ce problème en trois composants modulaires opérant dans l'espace des croyances (belief space), soit l'ensemble des distributions de probabilité sur les états possibles. Les auteurs introduisent deux outils formels : les Belief Control Lyapunov Functions (BCLFs), qui formalisent la collecte active d'information comme un problème de convergence Lyapunov, et les Belief Control Barrier Functions (BCBFs), qui fournissent des garanties de sécurité probabilistes à horizon fini via la prédiction conforme. La synthèse de commande se réduit à des programmes quadratiques légers, résolus en temps réel même pour des représentations de croyances non gaussiennes de dimension supérieure à 10 000. Les expériences couvrent la simulation et une plateforme réelle de robotique spatiale. L'apport principal est architectural : plutôt que de tout résoudre dans un arbre de recherche unifié, ce qui souffre de conflits entre échelles de temps (sécurité immédiate vs. planification à long terme), l'architecture en couches permet à chaque composant de fonctionner à son propre rythme. Pour les intégrateurs robotiques et les équipes R&D, c'est une avancée concrète sur le sim-to-real gap dans des contextes à observabilité partielle. La garantie probabiliste de sécurité via prédiction conforme est particulièrement notable : elle s'applique sans hypothèse gaussienne, ce qui élargit le domaine d'application à des scénarios industriels réels où les distributions d'incertitude sont complexes. Les performances annoncées sur la plateforme spatiale suggèrent une applicabilité au-delà du laboratoire, même si les conditions exactes des tests restent à détailler. L'article s'inscrit dans un courant actif de recherche sur le contrôle certifié (Control Barrier Functions, Control Lyapunov Functions) appliqué à la prise de décision probabiliste. Les travaux antérieurs comme DESPOT, POMCP ou les POMDP contraints (C-POMDP) tentaient d'intégrer sécurité et planification dans un seul solveur, souvent au prix de temps de calcul prohibitifs. L'utilisation de la prédiction conforme pour les garanties de sécurité rapproche cette ligne de travail des approches émergentes en apprentissage machine certifié. La plateforme spatiale mentionnée évoque des applications dans l'inspection et la maintenance orbitale, un secteur où acteurs comme Airbus Defence, Thales Alenia Space ou des startups comme ClearSpace développent des capacités d'opération autonome. Les prochaines étapes naturelles seraient une validation sur des robots mobiles ou manipulateurs en environnement industriel, et une publication des hyperparamètres permettant la reproductibilité.

UELes méthodes de contrôle certifié pour observabilité partielle sont directement applicables aux projets d'opération autonome orbitale développés par des acteurs européens comme Airbus Defence, Thales Alenia Space et ClearSpace.

RecherchePaper
1 source
Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil
136arXiv cs.RO 

Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil

Des chercheurs ont déposé sur arXiv (identifiant 2507.23045, version révisée) un algorithme de calibration extrinsèque pour plateformes multi-capteurs, formulé comme une solution générale au problème dit de "robot-world and hand-eye calibration" (RWHEC). La contribution centrale est la garantie de convergence vers l'optimum global, une propriété que les méthodes précédentes, souvent fondées sur une optimisation locale par descente de gradient, ne pouvaient pas assurer. L'algorithme résout simultanément la pose de plusieurs capteurs et de plusieurs cibles, et prend en charge les caméras monoculaires, qui présentent une ambiguïté d'échelle intrinsèque : seules, elles ne peuvent pas mesurer la distance absolue sans information supplémentaire. Une implémentation open-source accompagne la publication pour faciliter reproductibilité et adoption. La calibration extrinsèque, la détermination précise de la position et de l'orientation relative entre un capteur (caméra, LiDAR) et l'effecteur ou la base d'un robot, est un prérequis critique pour tout système multi-capteurs, qu'il s'agisse de robotique industrielle, de véhicules autonomes ou de manipulation. En pratique, les méthodes existantes exigent soit des hypothèses fortes sur l'environnement (cibles connues, mouvements structurés), soit des initialisations manuelles proches de la solution, au risque de converger vers un minimum local erroné. Les auteurs dérivent des critères d'identifiabilité a priori, c'est-à-dire des conditions mathématiques permettant de vérifier avant le calcul si le problème admet une solution unique, ainsi que des garanties d'optimalité globale pour des instances à erreurs de mesure bornées. Cela réduit la charge opérateur et élimine le risque d'échec silencieux en production. Techniquement, l'algorithme repose sur une relaxation SDP (Semidefinite Programming) d'un programme quadratique à contraintes quadratiques (QCQP), une famille de méthodes popularisée notamment par TEASER++ (MIT, 2020) pour le recalage de nuages de points. Les auteurs introduisent en parallèle une nouvelle qualification de contraintes pour les programmes non linéaires à contraintes redondantes, une contribution de théorie de l'optimisation valable indépendamment du problème de calibration. À noter que ce travail reste un preprint non encore évalué par les pairs. Dans un secteur où des acteurs comme Boston Dynamics, Agility Robotics, ou côté français Wandercraft, investissent massivement dans la perception embarquée multi-capteurs, disposer d'une calibration certifiée, générale et peu contraignante représente un gain opérationnel concret pour le passage à l'échelle en environnements réels.

UELes entreprises françaises multi-capteurs comme Wandercraft pourraient intégrer cet algorithme open-source pour fiabiliser leur calibration robot en production sans risque de minimum local silencieux.

RecherchePaper
1 source
Sécurité de l'IA incarnée : panorama des risques, attaques et défenses
137arXiv cs.RO 

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (identifiant 2605.02900) une revue systématique de la sécurité dans l'IA incarnée (embodied AI), couvrant plus de 400 articles académiques. Le périmètre s'étend à l'ensemble du pipeline d'un agent physique : perception sensorielle, cognition, planification, exécution d'actions et interactions humain-robot. La taxonomie proposée organise les menaces en quatre grandes familles d'attaques (adversariales, backdoor, jailbreak, matérielles) et trois axes de défense (détection d'attaques, entraînement robuste, inférence sûre). Les domaines d'application ciblés incluent la conduite autonome, la robotique industrielle et d'assistance, ainsi que les applications médicales, tous caractérisés par des conséquences physiques directes en cas de défaillance. Ce travail pointe trois angles morts particulièrement préoccupants pour les intégrateurs et les équipes produit. D'abord, la fragilité de la fusion multimodale : combiner vision, LiDAR et langage amplifie les surfaces d'attaque plutôt que de les réduire, contrairement à l'hypothèse dominante de redondance. Ensuite, l'instabilité de la planification sous attaque jailbreak : les modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2, de plus en plus déployés dans des systèmes humanoïdes, restent vulnérables à des injections de prompt qui court-circuitent les contraintes de sécurité définies au niveau applicatif. Enfin, la confiance dans les interactions en monde ouvert demeure non résolue dès que le scénario sort des conditions de laboratoire, ce qui est précisément le cas des déploiements industriels réels. Le contexte est celui d'une accélération brutale du déploiement d'agents physiques autonomes depuis 2024, portée par des acteurs comme Figure AI, Boston Dynamics, 1X Technologies, Apptronik et des labos publics (Stanford, CMU, ETH Zurich). L'absence d'un cadre de sécurité unifié est jusqu'ici restée dans l'angle mort de la course aux performances : les benchmarks sectoriels mesurent la dextérité et le sim-to-real transfer, rarement la robustesse face à un adversaire actif. Ce survey constitue un premier référentiel structuré ; il ne propose pas de solution clé en main mais identifie les briques manquantes, notamment les protocoles d'évaluation standardisés pour les attaques sur hardware embarqué et les mécanismes de contrôle d'intégrité des VLA en production.

UELes acteurs européens déployant des VLA (dont ETH Zurich, contributeur cité) et soumis à l'AI Act, qui classe les applications médicales et industrielles en systèmes à haut risque, devront intégrer les protocoles d'évaluation de robustesse adversariale identifiés comme manquants par ce survey.

RechercheOpinion
1 source
Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire
138arXiv cs.RO 

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

Des chercheurs ont publié le 6 mai 2026 sur arXiv (référence 2605.03363) un framework de contrôle hiérarchique hybride pour la préhension dextre réactive. L'architecture sépare explicitement deux niveaux d'exécution : un planificateur haut niveau basé sur du multi-agent RL, avec deux agents spécialisés distincts (un pour le bras, un pour la main), qui génère des commandes de vitesse en espace tâche; et un contrôleur bas niveau de programmation quadratique (QP) parallélisé sur GPU, qui traduit ces commandes en vitesses articulaires tout en respectant strictement les limites cinématiques et en assurant l'évitement de collisions. Le système a été validé sur matériel réel, avec un bras 7-DOF équipé d'une main anthropomorphique 20-DOF, en démontrant un transfert zero-shot depuis la simulation vers des objets non vus pendant l'entraînement, dans des environnements non structurés. La contribution principale n'est pas seulement la performance de saisie : c'est la propriété de "zero-shot steerability", c'est-à-dire la capacité d'un opérateur à ajuster dynamiquement les marges de sécurité ou à contourner des obstacles imprévus sans réentraîner la politique. Pour un intégrateur industriel, cela change radicalement le calcul de déploiement : les approches end-to-end classiques (VLA inclus) nécessitent typiquement un fine-tuning coûteux pour chaque variation d'environnement. Ici, la séparation structurelle entre planification et exécution permet d'injecter des contraintes nouvelles au niveau du QP sans toucher à la politique RL, ce qui accélère aussi la convergence en entraînement. La robustesse aux perturbations physiques imprévues, démontrée en conditions réelles, renforce la crédibilité du pipeline sim-to-real. Ce travail s'inscrit dans un mouvement de recherche qui cherche à dépasser les architectures purement end-to-end pour la manipulation dextre, en réintroduisant des couches de contrôle classiques (QP, contraintes cinématiques) comme fondation sûre sous une politique apprise. Des approches similaires émergent chez des équipes comme Physical Intelligence (Pi-0), Figure AI (Figure 03) ou 1X Technologies, qui combinent toutes apprentissage et contrôle structuré. La prochaine étape naturelle pour ce type de framework sera la validation sur des tâches d'assemblage industriel avec variabilité de forme et de matière, ainsi que l'extension à des mains à plus haute densité de capteurs pour fermer la boucle tactile.

IA physiquePaper
1 source
Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage
139arXiv cs.RO 

Lecture rapide et extensible des capteurs de mains dextériques par multiplexage à registre à décalage

Une équipe de chercheurs a publié début mai 2025 sur arXiv (2605.01434) une architecture de lecture de capteurs analogiques scalable pour mains robotiques dextres. Le système repose sur un registre à décalage série-vers-parallèle (SIPO) qui permet de connecter des modules de capteurs hétérogènes via seulement trois lignes de signal entre chaque module. La validation porte sur une main robotique à tendons équipée de 16 modules articulaires et d'un module tactile à quatre canaux, soit 20 canaux échantillonnés à 1 kHz en mode plein balayage, avec une stabilité confirmée jusqu'à 1,5 kHz. Les capteurs articulaires atteignent une erreur maximale de pente (APE) de 0,446 % et une estimation angulaire inférieure au degré. Pour la perception tactile, des modèles LSTM déployés en inférence temps réel à 1 kHz obtiennent un RMSE de 0,125 N pour l'estimation de force et 93,4 % de précision pour la classification en cinq catégories de localisation de contact. L'apport principal est la dissociation entre nombre de capteurs, complexité du câblage et bande passante d'échantillonnage, un compromis qui freine depuis longtemps le développement de mains densément captées. Limiter l'interconnexion à trois fils réduit la complexité mécanique et électrique de façon significative, un point critique pour les intégrations en espace contraint. La démonstration à 1 kHz sur 20 canaux simultanés avec inférence LSTM embarquée prouve que la chaîne capteur-modèle peut tenir le rythme d'une boucle de contrôle temps réel sans matériel dédié coûteux. Les performances tactiles sont solides sur banc de test, mais l'article ne précise pas les conditions en manipulation libre, un élément à vérifier avant toute extrapolation industrielle. La dextérité robotique reste un verrou majeur pour la manipulation non structurée, et la densification des capteurs dans les mains mécaniques est un axe actif chez des acteurs comme Sanctuary AI, Figure, Apptronik ou 1X, dont les humanoïdes commerciaux peinent encore à atteindre la densité sensorielle des prototypes académiques. L'architecture SIPO présentée est suffisamment générique pour s'adapter à d'autres géométries de main ou d'autres types de capteurs comme la pression, la température ou la proximité, et constitue une base crédible pour des intégrations sur plateformes humanoïdes en cours de commercialisation. Du côté européen, ni Wandercraft ni Enchanted Tools n'ont publié d'approches comparables pour les effecteurs distaux, laissant ce créneau ouvert à de prochains travaux.

UEL'architecture SIPO publiée en open access sur arXiv constitue une base technique directement exploitable pour les équipes R&D européennes travaillant sur les effecteurs distaux d'humanoïdes, un créneau où Wandercraft et Enchanted Tools n'ont pas encore publié d'approches comparables.

RecherchePaper
1 source
Un jumeau numérique haute-fidélité pour la manipulation robotique basé sur le splattage gaussien 3D
140arXiv cs.RO 

Un jumeau numérique haute-fidélité pour la manipulation robotique basé sur le splattage gaussien 3D

Une équipe de chercheurs a publié sur arXiv (identifiant 2601.03200, version 2) un cadre logiciel permettant de construire des jumeaux numériques haute fidélité pour la manipulation robotique en quelques minutes à partir d'un ensemble réduit d'images RGB. Le système repose sur la technique de reconstruction 3D Gaussian Splatting (3DGS), qui modélise une scène comme un nuage de gaussiennes colorées et orientées, offrant un rendu photoréaliste nettement plus rapide que les approches NeRF classiques. À cela s'ajoute une fusion sémantique tenant compte de la visibilité des objets, pour un étiquetage précis des éléments de la scène en 3D, ainsi qu'une méthode de conversion géométrique par filtrage produisant des maillages prêts pour la détection de collisions. L'ensemble s'intègre directement dans la chaîne Unity-ROS2-MoveIt et a été validé expérimentalement sur un bras Franka Emika Panda effectuant des tâches de pick-and-place dans des environnements non structurés. L'intérêt industriel de cette approche réside dans sa capacité à compresser drastiquement le temps de mise en place d'un pipeline sim-to-real : là où la création d'un jumeau numérique exploitable pour la planification de mouvements demande habituellement des heures de scan, de nettoyage de maillage et de paramétrage de collision, le framework proposé vise à produire un environnement simulé cohérent géométriquement et sémantiquement en quelques minutes. Pour un intégrateur ou un responsable de ligne industrielle, cela signifie un déploiement potentiellement plus rapide de cellules robotisées dans des contextes où la scène évolue fréquemment. Le papier démontre aussi que la qualité géométrique des jumeaux 3DGS, souvent critiquée pour ses artefacts aux bords d'objets, peut être suffisante pour piloter une manipulation robuste, ce qui contredit partiellement l'idée que ces reconstructions restent cantonnées à la visualisation. Le contexte est celui d'une compétition intense autour de la représentation de scènes pour la robotique. Le 3DGS, introduit par Kerbl et al. en 2023, s'est imposé comme alternative aux NeRF grâce à sa vitesse de rendu en temps réel, et plusieurs groupes l'ont depuis adapté à la robotique (SplaTAM, Gaussian Grouping, GaussianWorld). Ce travail se distingue par son focus applicatif sur le pipeline complet perception-planification-exécution, en ciblant explicitement MoveIt et ROS2, les standards de facto en robotique industrielle open-source. Il s'agit néanmoins d'un preprint sans revue par les pairs, et les résultats de pick-and-place sont présentés sur un seul type de bras dans un environnement de laboratoire contrôlé, ce qui laisse ouverte la question de la robustesse à plus grande échelle.

UELe framework est validé sur un bras Franka Emika Panda (fabricant allemand) et s'intègre nativement avec ROS2/MoveIt, standards ouverts très utilisés par les intégrateurs industriels européens, ce qui le rend directement pertinent pour réduire les délais de déploiement de cellules robotisées en Europe.

RecherchePaper
1 source
Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint
141arXiv cs.RO 

Génération de démarche adaptative pour exosquelettes multi-terrains via des primitives de mouvement à noyau contraint

Des chercheurs ont publié le 5 mai 2026 sur arXiv (preprint, non encore évalué par les pairs) un framework baptisé AGG (Adaptive Gait Generation), basé sur les Kernelized Movement Primitives (KMP), conçu pour permettre aux exosquelettes de membres inférieurs (Lower Limb Exoskeletons, LLEs) de marcher sur plusieurs types de terrains intérieurs en temps réel. Le système apprend une représentation probabiliste de la marche humaine à partir d'un nombre limité de démonstrations, dans les espaces articulaires et cartésiens, pour garantir la cohérence physiologique et la faisabilité cinématique. Une caméra RGB-D embarquée extrait des informations environnementales qui sont injectées comme contraintes linéaires dans un problème d'optimisation via des via-points. La méthode a été validée en simulation sur quatre scénarios, marche à plat, pentes, escaliers et franchissement d'obstacles, puis testée physiquement sur un LLE commercial dans des conditions réelles. L'enjeu principal est de combler le fossé entre laboratoire et terrain pour les exosquelettes de rééducation et d'assistance, qui restent aujourd'hui cantonnés aux surfaces planes et uniformes. L'approche KMP permet d'adapter la trajectoire de marche sans recalibration manuelle, ce qui représente une avancée opérationnelle concrète pour les cliniciens et les intégrateurs industriels. La capacité à générer des trajectoires cohérentes à partir de peu de démonstrations humaines réduit significativement le coût de déploiement, un verrou majeur pour la commercialisation. Les résultats sur le LLE commercial valident le passage du sim-to-real, même si la robustesse à long terme et la diversité des profils utilisateurs restent à démontrer sur des cohortes plus larges. Les exosquelettes de membres inférieurs sont un segment en pleine structuration : des acteurs comme Wandercraft (Paris), avec son Atalante X, ou Ekso Bionics et ReWalk côté américain, s'affrontent sur la question de l'autonomie locomotrice en environnement non contrôlé. La plupart des systèmes existants imposent encore une supervision clinique ou des réglages manuels par terrain. Ce travail s'inscrit dans une vague de recherches cherchant à coupler perception embarquée et planification adaptive, un axe également exploré par des équipes à l'ETH Zurich et au MIT. Les prochaines étapes naturelles seraient une validation sur des populations de patients avec des pathologies variées et une intégration dans un pipeline de contrôle adaptatif complet incluant la détection d'intention de l'utilisateur.

UEWandercraft (Paris) et son Atalante X sont directement concernés par cette avancée, qui ouvre la voie à une autonomie locomotrice en environnements non contrôlés sans recalibration manuelle, un verrou clé pour la commercialisation clinique en Europe.

ExosquelettesPaper
1 source
Navigation omnidirectionnelle par vision : apprentissage par distillation enseignant-élève avec estimation de profondeur monoculaire
142arXiv cs.RO 

Navigation omnidirectionnelle par vision : apprentissage par distillation enseignant-élève avec estimation de profondeur monoculaire

Des chercheurs ont publié sur arXiv (2603.01999) un système de navigation omnidirectionnelle pour robots mobiles industriels fonctionnant sans LiDAR, en s'appuyant sur quatre caméras RGB et un modèle de profondeur monoculaire. L'architecture dite "enseignant-étudiant" entraîne d'abord une politique "enseignant" par renforcement (PPO) dans NVIDIA Isaac Lab, avec des observations LiDAR 2D privilégiées couvrant l'empreinte complète du robot. Cette politique distille ensuite son comportement vers une politique "étudiant" qui ne perçoit l'environnement qu'à travers des cartes de profondeur générées par une version fine-tunée de Depth Anything V2. L'ensemble du pipeline (estimation de profondeur, exécution de la politique, contrôle moteur) tourne entièrement sur un NVIDIA Jetson Orin AGX embarqué sur un DJI RoboMaster, sans aucun calcul externe. En simulation, l'étudiant atteint 82 à 96,5 % de taux de succès, contre 50 à 89 % pour l'enseignant LiDAR. Sur terrain réel, il le surpasse également face à des obstacles à géométrie complexe : structures en surplomb et objets ras-du-sol qui échappent au plan de balayage unique d'un capteur 2D. Ce résultat remet en cause un postulat industriel courant : que la navigation robuste en entrepôt ou en atelier nécessite obligatoirement un LiDAR 3D ou une caméra de profondeur dédiée. Le LiDAR 2D, standard des AMR déployés aujourd'hui chez MiR, Fetch ou Locus Robotics, ne capture qu'une tranche horizontale de l'environnement et ignore les rebords en surplomb, les jambes de table et les obstacles ras du sol. En montrant qu'une politique visuelle apprise surpasse son propre enseignant LiDAR sur ces cas critiques, les auteurs valident un transfert sim-to-real fonctionnel et ouvrent la voie à des plateformes AMR significativement moins coûteuses. L'inférence entièrement embarquée supprime par ailleurs toute dépendance cloud, point critique pour les intégrateurs industriels soumis à des contraintes de latence ou de connectivité. L'approche s'appuie sur Depth Anything V2, modèle fondational d'estimation de profondeur monoculaire publié en 2024 par ByteDance Research, et sur NVIDIA Isaac Lab, lancé la même année comme successeur d'Isaac Gym. La plateforme DJI RoboMaster, initialement conçue pour la compétition étudiante, sert ici de banc de test de recherche pour sa robustesse mécanique. Les travaux s'inscrivent dans la tendance de policy distillation explorée notamment par ETH Zurich (projet ANYmal) pour la locomotion quadrupède. Le gap entre ces résultats expérimentaux et un déploiement industriel certifié reste à combler : les expériences réelles présentées restent limitées en durée et en diversité d'environnements, et aucun pilote en conditions de production n'est annoncé à ce stade.

UELes intégrateurs AMR européens s'appuyant sur des plateformes LiDAR 2D, dont MiR (danois), peuvent anticiper une réduction potentielle des coûts capteurs grâce à cette approche vision-only embarquée, mais aucun déploiement en conditions industrielles réelles n'est encore annoncé.

IndustrielPaper
1 source
RedVLA : l'attaque physique des modèles vision-langage-action (VLA)
143arXiv cs.RO 

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion
1 source
Coordination par relais pour la collecte et livraison multi-robots économe en énergie
144arXiv cs.RO 

Coordination par relais pour la collecte et livraison multi-robots économe en énergie

Une équipe de chercheurs a publié sur arXiv (identifiant 2509.14127, version 2, septembre 2025) un cadre de planification baptisé VCST-RCP (Voronoi-Constrained Steiner Tree Relay Coordination Planning), conçu pour coordonner des flottes homogènes de robots mobiles dans des missions de livraison multi-colis depuis un dépôt unique vers des destinations dispersées. L'algorithme opère en deux phases: la construction d'un réseau de relais sparse combinant des interfaces d'échange dérivées de diagrammes de Voronoï à une optimisation par arbre de Steiner, puis la génération des plannings de collecte, relais et livraison sous contraintes de capacité de charge et de temps de service. Sur des expériences menées à plusieurs échelles, VCST-RCP réduit la distance totale parcourue par la flotte de 31% en moyenne, avec des pics proches de 50%, par rapport à l'algorithme d'affectation Hungarian assignment, et surpasse significativement OR-Tools CVRP, le solveur de référence de Google. La significativité statistique est établie à p inférieur à 10^-3, et le gain d'efficacité de livraison, mesuré en colis par kilomètre parcouru, dépasse 50%. Ces résultats intéressent directement les opérateurs de flottes AMR (robots mobiles autonomes) en intralogistique et en livraison de dernier kilomètre, où la distance parcourue est directement corrélée au coût énergétique et à l'usure matérielle. L'étude d'ablation incluse dans les travaux est particulièrement instructive: elle démontre que l'optimisation du placement des points de relais génère des gains substantiellement supérieurs à ceux obtenus par simple repartitionnement spatial, établissant le design des relais comme levier dominant de la performance système. Cela remet en question l'hypothèse implicite répandue chez les intégrateurs, selon laquelle le transport direct source-destination constitue la référence optimale par défaut. La scalabilité démontrée à différentes tailles de flotte est un argument supplémentaire pour une adoption industrielle. Le problème MRPD (Multi-Robot Pickup and Delivery) est un classique de l'optimisation combinatoire en robotique, mais les architectures relay-based à grande échelle restent peu explorées. Hungarian assignment et OR-Tools CVRP, les deux références battues dans cette étude, sont précisément les solveurs utilisés par les éditeurs de WMS et les intégrateurs de flottes dans des environnements comme ceux d'Exotec (Roubaix), 6 River Systems ou Locus Robotics. Ce travail reste cependant un preprint arXiv, sans validation sur plateforme réelle annoncée: les gains en simulation sont solides, mais la transition sim-to-real, notamment face à la congestion dynamique et aux pannes robot en cours de mission, reste à prouver. Les extensions naturelles incluent des flottes hétérogènes et des dépôts multiples.

UEL'algorithme VCST-RCP, s'il est validé en environnement réel, pourrait réduire de ~30% les coûts énergétiques des flottes AMR d'acteurs européens comme Exotec (Roubaix) qui utilisent actuellement Hungarian assignment ou OR-Tools CVRP comme solveurs de référence.

RecherchePaper
1 source
Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes
145arXiv cs.RO 

Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.22251) une analyse formelle d'une erreur de formulation dans les contrôleurs prédictifs à impédance variable (variable impedance MPC) pour la locomotion des robots à pattes. Le problème identifié : traiter la raideur articulaire comme une variable de décision instantanée génère un ensemble faisable (Fparam) strictement plus large que l'ensemble physiquement réalisable (Freal) sous dynamiques d'actionneur du premier ordre. Les auteurs formalisent cette distinction via le paramètre sans dimension α = ωs·T (bande passante de l'actionneur multipliée par l'échelle temporelle de la tâche). Sur un monopède sauteur 1D, ils prouvent l'existence d'un seuil analytique αcrit en dessous duquel aucune commande de raideur admissible ne réalise la prédiction du modèle. Un second seuil αinfeas < αcrit établit un régime où même restreindre la plage de raideur admissible ne corrige pas la faisabilité. La validation numérique sur dix combinaisons de paramètres montre une déviation monotone croissante à mesure qu'α diminue (R² = 0,99 en log-log). Le transfert sur un pendule inversé à ressort (SLIP) planaire confirme que les déviations de centre de masse et de chronométrage d'appui sont les conséquences primaires. Ce résultat a des implications directes pour les intégrateurs déployant des MPC sur robots à pattes. Les formulations existantes peuvent paraître faisables numériquement tout en étant irréalisables physiquement, ce qui explique en partie le sim-to-real gap persistant dans les locomotions dynamiques. L'étude contredit l'hypothèse qu'un réglage conservateur des plages de raideur suffit à garantir la réalisabilité : en dessous d'α_infeas, cette approche est structurellement inopérante, quelle que soit la marge de sécurité appliquée. La commande à impédance variable s'est imposée en robotique à pattes pour adapter dynamiquement la compliance articulaire, notamment dans les plateformes d'ANYbotics (ANYmal), Boston Dynamics et Agility Robotics. La correction proposée par les auteurs est directe : augmenter l'état de prédiction du MPC avec la raideur courante ferme le décalage par construction. Aucune validation expérimentale sur hardware n'est encore annoncée, et la généralisation à des architectures multi-DOF reste à démontrer, ce qui limite pour l'instant la portée pratique immédiate du résultat.

UEANYbotics (Suisse/UE), dont la plateforme ANYmal est citée comme directement concernée, expose les équipes R&D européennes travaillant sur la locomotion dynamique à un risque de sim-to-real gap structurel lié à ce défaut de formulation MPC.

RecherchePaper
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
146arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

IA physiqueOpinion
1 source
Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique
147arXiv cs.RO 

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Une étude empirique de grande envergure, publiée sur arXiv (référence 2602.23408), apporte les premières réponses systématiques à une question restée sans réponse rigoureuse dans la communauté de la manipulation robotique : comment concevoir l'espace d'action d'une politique apprise par imitation ? Les chercheurs ont conduit plus de 13 000 déploiements réels sur un robot bimanuel, entraîné et évalué plus de 500 modèles sur quatre scénarios distincts, en examinant deux axes structurants : l'axe temporel (représentations absolues vs. incrémentales, dites "delta") et l'axe spatial (espace articulaire, ou joint-space, vs. espace opérationnel, ou task-space). Le résultat principal est sans ambiguïté : les représentations delta, qui encodent des variations de position plutôt que des positions cibles absolues, améliorent systématiquement les performances d'apprentissage. Sur l'axe spatial, joint-space et task-space révèlent des forces complémentaires : le premier favorise la stabilité du contrôle, le second facilite la généralisation à de nouveaux scénarios. Ces résultats ont une portée directe pour les équipes qui développent des politiques robotiques en production. Jusqu'ici, le choix de l'espace d'action relevait d'heuristiques héritées ou de conventions propres à chaque laboratoire, sans base empirique solide. L'étude montre que ce choix n'est pas accessoire : il conditionne fondamentalement le paysage d'optimisation de l'apprentissage par imitation, bien davantage que ce que supposait la littérature. Pour un intégrateur ou un ingénieur concevant un système de manipulation industrielle, la recommandation est désormais claire : préférer les delta actions par défaut, et arbitrer entre joint-space et task-space selon que la priorité est la stabilité du suivi de trajectoire ou la robustesse face à la variabilité des tâches. Ces conclusions sont directement applicables aux architectures VLA (Vision-Language-Action), qui dominent actuellement la recherche en politiques généralisables. Ce travail intervient dans un contexte où la course à la mise à l'échelle des données et des modèles concentre la majorité des ressources de recherche. Des systèmes comme pi-0 (Physical Intelligence), ACT ou Diffusion Policy ont popularisé l'imitation learning comme voie principale vers la manipulation généraliste, et des acteurs comme Figure AI, 1X ou Apptronik misent sur ces architectures pour leurs déploiements industriels. Pourtant, la conception de l'espace d'action restait guidée par des choix hérités des années 2010, faute d'étude comparative à grande échelle. En comblant ce manque avec une rigueur rare, les auteurs posent une base méthodologique qui devrait informer la prochaine génération de politiques bimanuelle et les benchmarks de comparaison entre systèmes.

RechercheOpinion
1 source
Chaleur et compétence dans l'essaim : concevoir des équipes humain-robot efficaces
148arXiv cs.RO 

Chaleur et compétence dans l'essaim : concevoir des équipes humain-robot efficaces

Une équipe de chercheurs a publié sur arXiv (identifiant 2604.19270, avril 2026) une étude portant sur la perception sociale des essaims de robots lors de collaborations avec des humains. Via deux expériences structurées autour d'une tâche collective de recherche, les participants ont évalué différentes configurations d'essaim en tant qu'observateurs passifs dans la première étude, puis en tant qu'opérateurs actifs dans la seconde. Les résultats sont consistants sur les deux études : les variations de comportement du groupe de robots modifient systématiquement les jugements de chaleur relationnelle (warmth) et de compétence attribués au collectif. Une durée de diffusion de signal plus longue augmente la chaleur perçue ; une distance de séparation inter-robots plus grande augmente la compétence perçue. La vitesse individuelle de chaque robot, en revanche, n'a d'effet significatif sur aucun des deux attributs. Le résultat le plus contre-intuitif est que les perceptions sociales prédisent les préférences d'équipe plus fortement que la performance brute. Les participants ont préféré les équipes à la fois chaleureuses et compétentes à celles qui accomplissaient la tâche le plus rapidement. Pour les intégrateurs de systèmes multi-robots et les responsables industriels, ce constat remet en cause un postulat courant : optimiser un essaim pour la vitesse ou l'efficacité pure ne suffit pas à obtenir l'adhésion des opérateurs humains. La dimension sociale du comportement collectif, la façon dont le groupe semble agir plutôt que ce qu'il accomplit, détermine l'acceptation et la confiance. Dans des environnements collaboratifs intégrant des AMR ou des flottes robotiques, ignorer ces paramètres constitue un facteur de risque d'adoption sous-estimé. Le cadre théorique utilisé, le modèle competence-warmth issu de la psychologie sociale, est bien établi pour la perception des individus et des groupes humains, mais son application aux essaims robotiques reste émergente. La littérature en HRI (human-robot interaction) s'est jusqu'ici principalement focalisée sur des agents individuels. Ce preprint arXiv, non encore évalué par les pairs, s'inscrit dans une direction de recherche croissante à l'intersection du swarm robotics et de la HRI. Des entreprises déployant des flottes en environnement humain, de Boston Dynamics à des acteurs européens comme Exotec ou Enchanted Tools, auraient intérêt à intégrer ces paramètres comportementaux dès la conception. La prochaine étape logique serait de valider ces résultats en environnement industriel réel, avec des opérateurs non-experts et des tâches à plus forte variabilité.

UEExotec et Enchanted Tools, acteurs européens déployant des flottes robotiques en environnement humain, sont explicitement cités comme pouvant intégrer dès la conception les paramètres comportementaux (durée de signal, distance inter-robots) identifiés par cette étude.

💬 Ce qui est frappant, c'est que la vitesse ne change rien à la perception. Les opérateurs préfèrent un essaim qui semble chaleureux et compétent à celui qui boucle la tâche le plus vite, ce qui chamboule pas mal les priorités si tu déploies une flotte en entrepôt avec des humains. Exotec, Enchanted Tools : ces paramètres comportementaux, c'est à intégrer dès la conception, pas après coup.

RecherchePaper
1 source
Planification hybride tâche-mouvement et gestion réactive des collisions pour le démontage multi-robots de batteries VE
149arXiv cs.RO 

Planification hybride tâche-mouvement et gestion réactive des collisions pour le démontage multi-robots de batteries VE

Des chercheurs ont publié, dans un article arXiv (2509.21020v2), un cadre de planification tâche-et-mouvement (TAMP) appliqué au démontage de batteries de véhicules électriques par deux bras robotiques travaillant en parallèle. Le système intègre une décomposition et une allocation dynamique des tâches, un planificateur de trajectoire basé sur RRT enrichi par un modèle de mélanges gaussiens (GMM), et une couche de sécurité hybride combinant un jumeau numérique MoveIt/FCL pour la détection prédictive de collisions avec un module d'évitement réactif par vision. Contrairement à une planification en boucle ouverte, le système opère en boucle fermée : il rescanne la scène en continu et met à jour la séquence de tâches restante selon l'état d'achèvement réel. Sur des expériences physiques de démontage de batteries EV, comparé à l'algorithme de référence RRTConnect, le framework réduit la longueur cumulée des trajectoires d'effecteur de 48,8 m à 17,9 m (soit -63,3 %), améliore le temps global de cycle (makespan) de 467,9 s à 429,8 s (-8,1 %), et diminue les volumes balayés par chaque robot (R1 : de 0,583 à 0,139 m³ ; R2 : de 0,696 à 0,252 m³), ainsi que leur chevauchement (de 0,064 à 0,034 m³). Ces résultats sont significatifs pour les intégrateurs industriels qui travaillent sur des lignes de démantèlement de batteries en fin de vie, un marché en forte croissance avec la montée en volume des VE. La combinaison planification prédictive et évitement réactif -- sans recours à une trajectoire figée -- est ce qui distingue l'approche : le système peut gérer des obstacles dynamiques et des imprévus de perception sans replanification globale coûteuse. La réduction de 63 % des distances parcourues réduit mécaniquement l'usure, le temps d'exposition aux risques de collision et l'énergie consommée, trois facteurs critiques pour un passage à l'échelle industrielle. Il faut noter que les expériences sont réelles (pas uniquement en simulation), ce qui renforce la crédibilité des métriques, même si les conditions exactes de test (variété des modules de batteries, taux d'échec de perception) ne sont pas détaillées dans le résumé. Le problème de démontage de batteries VE est devenu un axe de recherche prioritaire avec les objectifs européens de recyclage fixés par le règlement batteries 2023. Des équipes académiques et industrielles comme celles gravitant autour de MoveIt (OSRF), ainsi que des acteurs français tels que Pollen Robotics ou des intégrateurs proches du CEA-List, explorent des pistes similaires. Ce travail s'inscrit dans une tendance plus large : dépasser le sim-to-real gap en déployant des planificateurs hybrides sur du matériel réel, et adresser des tâches séquentielles complexes à contraintes d'ordre strict (précédence de dévissage, fragilité des cellules). La prochaine étape logique serait de tester la robustesse sur une gamme élargie de modèles de batteries et d'intégrer un retour haptique pour les phases de contact délicat.

UECe cadre TAMP répond directement aux objectifs de recyclage fixés par le règlement batteries UE 2023, en rendant le démantèlement automatisé de batteries VE en fin de vie plus efficace et scalable pour les intégrateurs industriels européens.

💬 63 % de réduction de trajectoires sur de vrais robots, pas en simulation, c'est rare dans les papiers arXiv et ça change vraiment la crédibilité du truc. La boucle fermée (rescan continu, réallocation dynamique) c'est exactement ce qu'il faut pour tenir en conditions industrielles, où une batterie mal positionnée ou un module abîmé peuvent faire dérailler toute la séquence. Reste à voir si ça tient sur une gamme large de modèles de batteries, parce que les conditions exactes de test ne sont pas détaillées, mais le règlement UE 2023 va créer la demande, et là il commence à y avoir des outils à la hauteur.

IndustrielPaper
1 source
L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques
150arXiv cs.RO 

L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques

Des chercheurs ont publié le 24 avril 2026 sur arXiv (arXiv:2604.18463) un benchmark nommé DESPITE, conçu pour évaluer systématiquement la sécurité des grands modèles de langage (LLM) utilisés comme planificateurs robotiques. Le jeu de données comprend 12 279 tâches couvrant à la fois des dangers physiques (collisions, manipulation de charges) et normatifs (violation de règles de sécurité industrielles), avec une validation entièrement déterministe. Testé sur 23 modèles, le résultat le plus frappant est le suivant : le meilleur modèle en termes de planification n'échoue à produire un plan valide que dans 0,4 % des cas, mais génère des plans dangereux dans 28,3 % des situations. Parmi les 18 modèles open-source évalués, allant de 3 milliards à 671 milliards de paramètres, la capacité de planification s'améliore fortement avec la taille (de 0,4 % à 99,3 % de réussite), tandis que la conscience du danger reste remarquablement plate (38 à 57 %). Trois modèles propriétaires dotés de capacités de raisonnement explicite atteignent des niveaux de sécurité nettement supérieurs, entre 71 % et 81 %, alors que les modèles propriétaires sans raisonnement et les modèles open-source restent sous le seuil des 57 %. Ces résultats contredisent directement l'hypothèse, implicite dans de nombreux projets d'intégration, selon laquelle un modèle plus capable est automatiquement plus sûr. Les auteurs identifient une relation multiplicative entre capacité de planification et conscience du danger : un LLM qui planifie mieux complète davantage de tâches en toute sécurité, mais uniquement parce qu'il génère plus de plans valides, pas parce qu'il évite mieux les situations à risque. Pour un intégrateur robotique ou un COO industriel qui envisage de déployer un LLM comme cerveau d'un AMR ou d'un bras manipulateur, cela signifie concrètement que la saturation des performances de planification, déjà proche pour les modèles frontier, déplace le goulot d'étranglement vers la sécurité, un axe que les recettes de scaling habituelles ne résolvent pas. Ce travail s'inscrit dans un débat actif autour des architectures VLA (Vision-Language-Action) et de l'utilisation des LLM comme planificateurs de haut niveau dans des systèmes comme ceux développés par Physical Intelligence (pi0), Figure AI ou Boston Dynamics. Le benchmark DESPITE comble un vide méthodologique : jusqu'ici, les évaluations de sécurité reposaient sur des scénarios ad hoc ou des métriques de performance générale. L'absence de tout modèle open-source dépassant les 57 % de conscience du danger soulève des questions directes pour les acteurs européens qui misent sur des modèles ouverts pour des raisons de souveraineté ou de coût, notamment dans les secteurs logistique et manufacturier. Les prochaines étapes logiques incluent l'intégration de DESPITE dans les pipelines de fine-tuning orientés sécurité et la collaboration avec des organismes de normalisation comme l'ISO ou l'IEC pour ancrer ces métriques dans des référentiels de certification robotique.

UELes acteurs européens qui misent sur des modèles open-source pour des raisons de souveraineté se retrouvent plafonnés à 57 % de conscience du danger, bien en dessous des modèles propriétaires à raisonnement explicite (71–81 %), ce qui fragilise directement les déploiements LLM-as-planner dans la logistique et le manufacturier européens.

RechercheOpinion
1 source