Aller au contenu principal
Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique
RecherchearXiv cs.RO4sem

Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie sur arXiv (référence 2604.02812) une approche neuro-symbolique permettant à un modèle de langage vision (VLM) de générer automatiquement des politiques robotiques exécutables sous forme d'arbres de comportement (Behavior Trees, BTs), à partir d'observations visuelles, d'instructions en langage naturel et de spécifications système structurées. La contribution centrale est un pipeline entièrement automatisé qui produit un jeu de données synthétique multimodal : des scènes à randomisation de domaine sont générées procéduralement, chacune associée à des exemples instruction-politique produits par un modèle fondamental. Un modèle de 12 milliards de paramètres est ensuite entraîné exclusivement sur ces données synthétiques, sans annotation humaine. Les expériences physiques, conduites sur deux manipulateurs robotiques hétérogènes, confirment un transfert zéro-shot vers des environnements réels.

L'enjeu industriel est direct : la grande majorité des politiques visuomotrices actuelles reposent sur des architectures end-to-end opaques, difficilement auditables ou certifiables pour un déploiement en production. En produisant des BTs, cette méthode offre interprétabilité, modularité et exécution réactive, trois propriétés que les intégrateurs industriels exigent mais que les approches VLA classiques (Pi-0, GR00T N2, OpenVLA) ne garantissent pas nativement. Le fait que le transfert sim-to-real soit obtenu sans aucune donnée réelle lors de l'entraînement contredit l'hypothèse persistante selon laquelle le gap simulation-réalité rendrait ce type d'approche impraticable pour la manipulation. C'est sur ce point que les résultats méritent attention, même si les auteurs ne détaillent pas la complexité des scènes testées ni les métriques de robustesse sur longues séquences.

Les Behavior Trees sont un standard hérité du jeu vidéo et de la robotique classique, adoptés notamment dans ROS 2 via BehaviorTree.CPP, précisément pour leur lisibilité et leur capacité de reprise sur erreur. La tension entre contrôle symbolique et apprentissage end-to-end est au coeur des débats actuels, avec des acteurs comme 1X, Physical Intelligence ou Boston Dynamics cherchant des compromis différents. Cette recherche positionne les VLMs non plus comme générateurs de mouvements bruts, mais comme compilateurs de plans structurés, une distinction architecturale qui pourrait orienter les prochains cycles de développement vers des systèmes hybrides plus auditables. La prochaine étape naturelle serait de valider l'approche sur des manipulateurs commerciaux dans des environnements non contrôlés et sur des horizons de tâches plus longs.

À lire aussi

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
1arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
Apprentissage robotique à partir de vidéos humaines : une synthèse
2arXiv cs.RO 

Apprentissage robotique à partir de vidéos humaines : une synthèse

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.27621) un état de l'art complet sur l'apprentissage des compétences robotiques à partir de vidéos humaines. Le papier recense les techniques permettant de transférer des habiletés gestuelles filmées vers des robots manipulateurs, en s'appuyant sur la masse de vidéos d'activités humaines disponibles en ligne. Les auteurs proposent une taxonomie hiérarchique structurée en trois axes : l'apprentissage orienté tâche (le robot déduit l'objectif), l'apprentissage orienté observation (alignement visuel entre humain et robot), et l'apprentissage orienté action (estimation directe des mouvements moteurs). Le survey couvre également les fondements de données, en analysant les principaux jeux de données de vidéos humaines existants ainsi que les schémas de génération vidéo synthétique. Une liste exhaustive des travaux référencés est disponible sur GitHub (IRMVLab/awesome-robot-learning-from-human-videos). Ce travail de synthèse arrive à un moment clé : le manque de données robotiques à grande échelle constitue aujourd'hui le principal goulot d'étranglement pour les systèmes d'IA incarnée généralistes. Les vidéos humaines représentent une ressource passive quasi illimitée, et leur exploitation pourrait contourner le coût exorbitant de la collecte de démonstrations téléopérées. Le papier analyse explicitement comment les différentes approches se comportent selon les paradigmes d'apprentissage (imitation, renforcement, diffusion) et les configurations de données, ce qui est directement utile pour des intégrateurs qui cherchent à choisir une architecture VLA (Vision-Language-Action) selon leur contrainte de données terrain. Le survey souligne aussi honnêtement les limitations du champ : le gap démo-réalité reste non résolu dans la plupart des pipelines, et les métriques de transfert restent hétérogènes d'un papier à l'autre. Ce type de survey émerge dans un contexte où plusieurs labos et startups misent sur le video-based learning comme levier de scalabilité : Physical Intelligence (pi-0), NVIDIA (GR00T N2), et Google DeepMind ont tous intégré des données humaines ou des vidéos internet dans leurs pipelines d'entraînement récents. Côté recherche académique, les travaux comme R3M, UniPi ou RoboAgent ont posé les jalons de cette approche ces deux dernières années. Ce survey offre donc une base de référence structurée pour les équipes qui entrent maintenant dans ce champ, avec des pistes de recherche ouvertes notamment sur la synchronisation temporelle corps-robot et la génération de données vidéo simulées pour la diversification des trajectoires.

UELes équipes de recherche françaises (CEA-List, INRIA) et les startups européennes travaillant sur des architectures VLA peuvent exploiter cette taxonomie structurée pour orienter leurs choix méthodologiques selon leurs contraintes de données terrain.

RecherchePaper
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
3arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive
4arXiv cs.RO 

Apprentissage de règles symboliques compositionnelles à partir de démonstrations par programmation logique inductive

Des chercheurs ont déposé sur arXiv (réf. 2605.26828) une méthode combinant apprentissage par démonstration (LfD) et programmation logique inductive (ILP) pour extraire des règles symboliques à partir d'exemples fournis par un opérateur humain. Plutôt que de reproduire les gestes observés, le système décompose une tâche complexe en une hiérarchie d'objectifs d'apprentissage à plusieurs niveaux d'abstraction ontologique : les règles inférées au bas de la hiérarchie sont réutilisées comme briques pour construire des structures de tâches plus élaborées, selon un principe de raisonnement compositionnel. Les expériences ont été conduites dans un scénario synthétique d'assemblage de blocs, et montrent une généralisation aux configurations inédites, y compris avec des objets absents de la phase d'entraînement. À mesure que les robots industriels gagnent en autonomie, la lisibilité et la réutilisabilité de leurs représentations internes de tâches deviennent des enjeux critiques pour les intégrateurs et les équipes de validation. L'ILP produit des règles symboliques explicites et modifiables par un ingénieur, à l'opposé des approches neuronales d'imitation telles que le behavior cloning ou les VLA (vision-language-action models), dont les décisions restent opaques et difficiles à auditer. La capacité du système à généraliser à des tâches plus difficiles avec des objets jamais vus est un résultat encourageant, que les auteurs qualifient eux-mêmes de "preuve préliminaire" : l'évaluation se limite à un environnement entièrement simulé, sans validation sur robot physique ni mesure du sim-to-real gap. L'apprentissage par démonstration est un paradigme fondateur de la robotique programmable, mais les méthodes récentes basées sur le deep learning sacrifient souvent l'interprétabilité à la performance brute. L'ILP, issu de l'IA symbolique des années 1990, connaît un regain d'intérêt dans le mouvement plus large du raisonnement neurosymbolique, qui cherche à allier la flexibilité du machine learning et la rigueur du raisonnement logique. Ce travail s'inscrit dans ce courant sans prétendre à un déploiement industriel immédiat : les étapes suivantes attendues sont la validation sur hardware réel et des scénarios de manipulation plus diversifiés, seuls capables de mesurer la robustesse effective de l'approche hors simulation.

RecherchePaper
1 source