RecherchearXiv cs.RO4h

Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (réf. 2602.22474) un cadre nommé UPS (Uncertainty-Aware Policy Steering), conçu pour adapter le comportement d'un robot au moment du déploiement sans nécessiter de réentraînement complet. Le "policy steering" consiste à utiliser un vérificateur appris qui analyse les échantillons d'actions proposés par une politique pré-entraînée (typiquement une diffusion policy) et ne retient que celles jugées conformes à la tâche. UPS utilise un Vision-Language Model (VLM) comme vérificateur général, mais y ajoute une calibration par prédiction conforme (conformal prediction) pour corriger le biais de surconfiance caractéristique de ces modèles. Le système distingue trois régimes de décision : exécuter une action avec haute confiance, demander une clarification en langage naturel si la consigne est ambiguë, ou solliciter une intervention humaine sur l'action lorsque la politique de base est jugée incapable d'exécuter la tâche. Des expériences ont été menées en simulation et sur plateforme physique.

Le problème de la surconfiance des VLMs est concret et rarement traité dans la littérature sur le déploiement robotique. En pratique, un vérificateur qui ne sait pas qu'il ne sait pas valide des actions incorrectes ou bloque des actions valides, dégradant directement la performance opérationnelle. UPS apporte une garantie statistique formelle sur le choix de stratégie, ce qui est significatif pour des intégrateurs industriels qui ont besoin de bornes de fiabilité chiffrées. La composante de residual learning permet au système de progresser à partir des interventions collectées en déploiement, avec un objectif explicite de minimiser le feedback humain coûteux. Cette combinaison calibration plus apprentissage continu différencie UPS des pipelines d'apprentissage actif classiques, qui ne pondèrent pas le coût réel des interruptions.

Le policy steering s'est accéléré avec la disponibilité de politiques pré-entraînées génériques comme la diffusion policy, ACT ou pi-0, et de VLMs capables de raisonnement visuel. Les approches précédentes (SayCan, inner-monologue, RT-2) traitaient généralement la planification de haut niveau et l'exécution de bas niveau comme des modules séparés, sans calibration jointe de l'incertitude. UPS tente de combler ce gap en traitant simultanément l'incertitude sémantique et l'incertitude d'action dans un seul cadre probabiliste avec garanties statistiques. Les concurrents directs incluent les frameworks human-in-the-loop comme TAMER ou les approches de gating robotique d'OpenVLA, qui s'appuient sur des heuristiques moins formelles pour décider quand escalader vers un opérateur. Les travaux sont portés par une équipe académique (site de démonstration : jessie-yuan.github.io/ups) ; aucun partenaire industriel ni calendrier de transfert n'est annoncé à ce stade.

Dans nos dossiers

OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion

1 source

2arXiv cs.RO

TAIL-Safe : surveillance de sécurité agnostique aux tâches pour les politiques d'apprentissage par imitation

Des chercheurs ont publié le 5 mai 2026 TAIL-Safe (Task-Agnostic Imitation Learning Safety), une méthode de supervision de sécurité conçue pour les politiques d'apprentissage par imitation (IL) déployées sur robots manipulateurs. Le cœur du système repose sur une fonction Q à continuité Lipschitz qui évalue chaque paire état-action selon trois critères indépendants de la tâche : la visibilité de l'objet cible, sa reconnaissabilité par le système de perception, et sa saisissabilité géométrique. L'ensemble zéro-superniveau de cette fonction définit un ensemble invariant de contrôle empirique, c'est-à-dire une région de l'espace état-action depuis laquelle la politique aboutit systématiquement à succès. Lorsque la politique nominale propose une action hors de cet ensemble, un mécanisme de récupération inspiré du théorème de Nagumo applique un gradient ascendant sur la fonction Q pour ramener la trajectoire vers la zone sûre. Les expériences ont été conduites sur un robot Franka Emika avec des politiques de type flow-matching, une architecture IL récente aux résultats compétitifs sur des tâches de manipulation complexes, soumises à des perturbations appliquées en cours d'exécution. L'enjeu est direct pour les intégrateurs robotiques et les responsables de mise en production : les politiques IL modernes, y compris les diffusion policies et les flow-matching policies, échouent de façon imprévisible même dans des conditions proches de leur distribution d'entraînement. Ce phénomène, combinaison d'une sensibilité extrême aux conditions initiales et d'une dérive cumulée des erreurs d'approximation, rend leur déploiement industriel risqué sans couche de supervision formelle. TAIL-Safe répond précisément à ce besoin en délimitant une frontière opérationnelle sûre, sans hypothèse sur la nature de la tâche. Les résultats expérimentaux montrent des taux de succès nettement supérieurs à ceux de la politique non supervisée face aux perturbations, ce qui valide l'approche sur un cas concret de manipulation, et non sur de simples données simulées. Les politiques d'apprentissage par imitation ont gagné en maturité avec l'essor des architectures VLA (Vision-Language-Action) comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, mais leur fragilité au déploiement réel reste un frein structurel à l'industrialisation. Pour contourner la collecte de données d'échec sur matériel physique, coûteuse et risquée, l'équipe construit un jumeau numérique haute-fidélité basé sur le rendu Gaussian Splatting, permettant de générer systématiquement des cas limites sans exposer le robot. Cette stratégie ciblée sur les frontières de l'ensemble sûr s'inscrit dans une tendance plus large visant à combler le sim-to-real gap de façon chirurgicale plutôt que par simulation généraliste. La méthode étant agnostique à l'architecture de politique sous-jacente, elle pourrait s'appliquer à l'ensemble de l'écosystème IL, des manipulateurs industriels aux humanoïdes, et intéresse potentiellement des acteurs académiques européens actifs sur la manipulation sûre comme l'INRIA ou le LAAS-CNRS.

UELa méthode TAIL-Safe, agnostique à l'architecture de politique, pourrait intéresser directement des équipes françaises comme l'INRIA ou le LAAS-CNRS actives sur la manipulation sûre et le déploiement industriel de robots manipulateurs.

RecherchePaper

1 source

3arXiv cs.RO

Agir ou ne pas agir : garantir la sécurité des politiques visuomotrices apprises par démonstration

Une équipe de chercheurs a publié sur arXiv (référence 2605.01201) une analyse formelle de la sécurité des politiques visuomotrices apprises par imitation (imitation learning, IL). Le papier propose un concept baptisé execution guarantee : une mesure de sécurité indépendante de l'architecture de la politique qui certifie le succès maximal d'une tâche malgré des variations mineures à l'exécution, à l'intérieur d'une région définie de l'espace des états. Les chercheurs exploitent les avancées récentes en synthèse de vue (view synthesis) pour identifier ces régions, puis s'appuient sur la condition de sous-tangentialité de Nagumo, un résultat classique d'invariance ensembliste, pour formaliser et opérationnaliser cette garantie. Les expériences ont été conduites sur un bras Franka Emika, à la fois en simulation et en environnement réel. Le travail comble un angle mort structurel de la recherche en IL : jusqu'ici, la performance d'une politique se mesurait quasi exclusivement au taux de succès des tâches, sans considération de sécurité. Pour la robotique de terrain, qu'il s'agisse de manipulation industrielle, d'environnements partagés humain-robot ou de logistique, cette lacune est bloquante. Un robot IL déployé doit savoir ne pas agir si les conditions de sécurité ne sont pas réunies, quitte à enregistrer une performance nulle. L'execution guarantee fournit pour la première fois un cadre théorique actionnable pour arbitrer ce compromis sécurité/performance. Le papier démontre par ailleurs qu'une politique de récupération (recovery policy), générée comme sous-produit de l'analyse, permet d'atténuer ce compromis en pratique en augmentant le taux de succès global. La sécurité dans l'apprentissage par imitation est une problématique historiquement sous-explorée. Si la théorie du contrôle classique dispose d'outils matures comme les fonctions de barrière de contrôle (Control Barrier Functions, CBF), leur extension aux politiques visuomotrices à réseaux neuronaux reste difficile : ces politiques n'exposent pas de représentation d'état symbolique exploitable par les formalismes classiques. Ce papier s'inscrit dans un courant émergent cherchant à combiner garanties formelles et apprentissage profond, aux côtés de travaux similaires menés à Carnegie Mellon et Stanford sur les approches CBF-IL. La prochaine étape naturelle serait l'extension à des scènes dynamiques et à des politiques de type VLA (Vision-Language-Action), où la variabilité de l'entrée visuelle rend les garanties de sécurité encore plus difficiles à établir à l'échelle.

RechercheOpinion

1 source

4arXiv cs.RO

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes. L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle. La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

RecherchePaper

1 source