Aller au contenu principal
Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations
RecherchearXiv cs.RO3sem

Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin mai 2026 (arXiv:2605.22123) un framework permettant d'apprendre des fonctions de récompense symboliques invariantes à partir de seulement cinq démonstrations pour des tâches de manipulation robotique. Le système repose sur deux composants couplés : une formulation structurelle de récompense encodant des stratégies de niveau tâche et des contraintes physiques, et une procédure hybride symbolique-numérique qui distille des invariants comportementaux depuis ces démonstrations sans requérir d'interaction en ligne avec l'environnement. La méthode a été évaluée sur huit tâches du benchmark Meta-World et trois tâches de manipulation sur bras Franka, affichant de meilleures capacités d'alignement procédural et de classement de rollouts de politique par rapport aux baselines existantes. Trois expériences réelles out-of-distribution valident une généralisation zero-shot à des variations de position, de point de vue caméra et d'instances d'objets inédites.

Le problème adressé est structurel : les modèles de récompense basés sur la vision tendent à mémoriser des distributions de pixels spécifiques et s'effondrent dès que les conditions visuelles changent, qu'il s'agisse d'un objet déplacé, d'un angle de caméra différent ou d'une variante d'objet inconnue. Pour un intégrateur déployant un système de manipulation en milieu industriel, cela impose de recollectecter des démonstrations ou de réentraîner le modèle à chaque variation du contexte opérationnel. Le passage aux invariants symboliques, c'est-à-dire des propriétés comportementales constantes indépendamment de l'apparence visuelle, propose une représentation de récompense réutilisable sur de multiples variantes de tâche sans interaction supplémentaire, ce qui réduit significativement le coût itératif du déploiement en apprentissage par renforcement.

Ce travail s'inscrit dans une dynamique de recherche active visant à résoudre le goulot d'étranglement du reward engineering en RL robotique. Les approches récentes fondées sur des embeddings visuels issus de VLMs, comme VIP ou RoboCLIP, ont progressé sur la généralisation visuelle mais restent fragilisées par les variations de distribution en dehors des conditions d'entraînement. La méthode proposée se distingue en substituant aux embeddings bruts une abstraction symbolique de la tâche. Des laboratoires comme Berkeley BAIR, Stanford ou le CMU Robotics Institute travaillent sur des directions similaires d'abstraction pour le RL. La capacité à bootstrapper une récompense généralisable depuis cinq démonstrations seulement ouvre la voie à des pipelines de fine-tuning robotique plus accessibles, potentiellement utilisables par des intégrateurs sans expertise RL avancée.

À lire aussi

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
1arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
2arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source
UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable
3arXiv cs.RO 

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

Une équipe de chercheurs a publié UniDomain, un cadre de pré-entraînement qui construit automatiquement un domaine PDDL (Planning Domain Definition Language) unifié à partir de démonstrations robotiques réelles, pour être ensuite appliqué à la planification de tâches en ligne. Le système ingère 12 393 vidéos de manipulation robotique, en extrait des domaines atomiques, et les fusionne en un domaine unifié comprenant 3 137 opérateurs, 2 875 prédicats et 16 481 arêtes causales. Face à une nouvelle classe de tâches, UniDomain récupère les atomes pertinents et les assemble dynamiquement en méta-domaines adaptés. Les expériences sur des tâches réelles inédites montrent des gains allant jusqu'à 58 % sur le taux de succès et 160 % sur l'optimalité des plans, comparé aux meilleures bases LLM seuls et LLM couplés à PDDL manuel, le tout en mode zéro-shot. Ce résultat s'attaque à l'un des verrous centraux de la robotique manipulatrice : la capacité à raisonner sur des séquences longues d'actions avec des contraintes implicites issues du langage et de la vision. Les LLM et VLM actuels fournissent de bons priors sémantiques, mais peinent à maintenir une cohérence causale sur des horizons temporels étendus et à ancrer les symboles dans le réel. UniDomain propose une voie médiane : extraire la structure symbolique directement depuis des démonstrations, évitant ainsi la fragilité des domaines PDDL codés à la main, souvent trop étroits pour généraliser. La généralisation compositionnelle zéro-shot, validée sur des tâches jamais vues, est ici une affirmation forte, bien que la sélection des vidéos sources et des scénarios de test mériterait une vérification indépendante pour écarter un biais de distribution. La planification symbolique robotique via PDDL est un paradigme ancien, remontant aux travaux STRIPS des années 1970, mais qui a souffert du coût élevé de l'ingénierie des domaines. Des approches récentes comme SayCan (Google), Code-as-Policies (Google Brain) ou les travaux de planification LLM de MetaAI ont tenté de contourner ce problème par la génération de code ou de plans en langage naturel, avec des résultats limités en environnements ouverts. UniDomain repositionne PDDL non plus comme une contrainte d'ingénierie mais comme un artefact appris, ce qui le rapproche conceptuellement des travaux sur l'apprentissage de modèles du monde. Les prochaines étapes naturelles incluent l'extension à la manipulation déformable, l'intégration avec des architectures VLA comme pi-0 ou GR00T N2, et une validation en environnement industriel réel, aujourd'hui absente de l'article.

RecherchePaper
1 source
IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines
4arXiv cs.RO 

IntentNav : apprendre la navigation spatiale vers des objets à partir de démonstrations humaines

Une équipe de recherche anonyme a soumis le 9 juin 2026 un préprint arXiv (2606.08029) présentant IntentNav, un framework d'imitation spatiale et visuelle pour la navigation autonome par objets (ObjectNav). La tâche consiste à envoyer un robot chercher un objet non observé dans un environnement inconnu, sans carte préalable, en décidant en temps réel où explorer sous observabilité partielle. L'architecture repose sur deux briques complémentaires : une mémoire BEV (Bird's Eye View) qui encode les régions explorées, les frontières inexplorées et l'historique de trajectoire, et une mémoire visuelle égocentrique qui associe des indices sémantiques à chaque frontière candidate. Un modèle de langage et de vision (VLM) est entraîné sur des démonstrations humaines pour sélectionner la prochaine frontière à explorer, guidé par un "Frontier-based Human-Intent Labeling" qui inspecte en avant les trajectoires humaines pour identifier quelle frontière explique le mieux la direction de recherche du démonstrateur. Les auteurs annoncent des performances état de l'art sur les benchmarks MP3D, HM3D-v1 et HM3D-v2. Le point le plus saillant pour les intégrateurs est le transfert zéro-shot : la même politique VLM, sans fine-tuning supplémentaire, est transférée à trois morphologies distinctes, robot à roues, quadrupède et humanoïde. Cela suppose que l'interface candidate-level fonctionne comme une couche d'abstraction suffisamment générique pour s'affranchir des particularités cinématiques propres à chaque plateforme. Pour un COO industriel, cela ouvre la perspective d'un seul modèle de navigation entraîné sur des démonstrations humaines capable de piloter des flottes hétérogènes sans retraining par morphologie. Réserve importante : la démonstration sim-to-real reste confinée aux benchmarks de simulation Matterport3D et HM3D ; aucun résultat sur hardware physique réel n'est rapporté dans le préprint, ce qui laisse entier le gap entre benchmark et déploiement terrain. IntentNav s'inscrit dans un champ actif où des approches concurrentes comme SemExp (Chaplot et al., 2020), ZSON (Majumdar et al., 2022) ou les méthodes VLM zéro-shot telles qu'EmbodiedGPT et OpenFMNav se disputent la tête des benchmarks HM3D. La contribution distinctive est l'extraction d'intention de haut niveau à partir d'actions humaines de bas niveau via le labeling de frontières, une alternative à l'apprentissage par renforcement pur qui souffre de la rareté des récompenses dans les grands espaces d'exploration. La soumission étant anonyme, affiliations et financements ne sont pas divulgués ; une page projet est référencée sans contenu pleinement accessible à ce stade.

RechercheOpinion
1 source