Aller au contenu principal
Nouvelles tâches par compétences réutilisables : experts compositionnels pour l'apprentissage continu incarné
RecherchearXiv cs.RO3j

Nouvelles tâches par compétences réutilisables : experts compositionnels pour l'apprentissage continu incarné

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (2606.15685) un framework appelé SCE (Skill-Compositional Experts), conçu pour permettre à des robots manipulateurs d'apprendre de nouvelles tâches en continu sans effacer les comportements déjà maîtrisés. L'approche repose sur deux blocs : un mécanisme de Compositional Skill Grounding (CSG) qui décompose des démonstrations en primitives réutilisables, puis un système DETE (Dual Execution-and-Transition Experts) à deux branches, l'une assurant l'exécution de chaque skill et l'autre pilotant les transitions entre eux pour produire un comportement cohérent. Les évaluations portent sur les benchmarks LIBERO (manipulation en simulation) ainsi que sur des tâches en environnement réel, avec des gains de rétention et de performance globale par rapport aux méthodes de référence.

Le problème visé, le "catastrophic forgetting" en boucle fermée, est nettement plus sévère qu'en continual learning classique : sous contrôle séquentiel, la dérive des représentations internes (feature drift) s'accumule et dégrade progressivement les comportements antérieurs. Pour les industriels déployant des bras robotiques multi-tâches en logistique, assemblage ou alimentation, c'est un verrou réel : introduire une nouvelle tâche risque d'invalider les précédentes, imposant des revalidations coûteuses. SCE propose de structurer explicitement les skills en une base réutilisable, ce qui pourrait, si cela tient à l'échelle, réduire ce surcoût d'intégration. À noter cependant : il s'agit d'un preprint non encore évalué par les pairs, et les résultats en environnement réel restent peu détaillés dans l'abstract.

L'Embodied Continual Learning a gagné en visibilité avec l'essor des politiques robotiques généralisables, notamment sous l'influence des Visual Language Action models (VLA) et des travaux de sim-to-real transfer. Les benchmarks LIBERO sont devenus une référence pour évaluer la généralisation des politiques de manipulation. Les approches concurrentes, comme SkillDiffuser ou les méthodes à mémoire épisodique, traitent la même problématique sans structurer explicitement les transitions entre skills, ce qui constitue la contribution centrale de SCE. Les auteurs publient une page projet mais n'annoncent ni partenariat industriel ni timeline de déploiement, ce qui situe ce travail à la frontière entre preuve de concept académique et transfert applicatif.

Dans nos dossiers

À lire aussi

L'apprentissage conjoint de prédicats et d'actions permet la composition zéro-shot de compétences
1arXiv cs.RO 

L'apprentissage conjoint de prédicats et d'actions permet la composition zéro-shot de compétences

Des chercheurs ont publié le 21 mai 2026 sur arXiv un préprint intitulé "Jointly Learning Predicates and Actions Enables Zero-Shot Skill Composition", introduisant PACTS (Predicate Action Skills), une nouvelle classe de politiques visuomotrices en boucle fermée pour la robotique. Le problème posé est précis : les approches actuelles d'apprentissage par démonstration (LfD) permettent à un robot d'acquérir des compétences isolées, mais échouent à les recombiner de façon inédite sans réentraînement. PACTS y répond en modélisant chaque compétence comme un processus génératif joint sur deux flux simultanés : les trajectoires d'action et les trajectoires de croyance prédicative, c'est-à-dire des représentations symboliques de l'état du monde induites par chaque action. Un seul modèle produit ainsi des séquences action-résultat cohérentes, sans pipeline séparé. L'enjeu est structurel pour la robotique industrielle et de service : la capacité de composition zéro-shot signifie qu'un robot formé sur des briques de base peut enchaîner des tâches nouvelles sans nouvelle collecte de données ni réentraînement, ce qui est un verrou majeur dans le déploiement à grande échelle. Les politiques génératives modernes, notamment les VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou les modèles de diffusion appliqués aux trajectoires, ne modélisent que la distribution des actions, sans raisonnement explicite sur les états symboliques intermédiaires. PACTS utilise les prédictions de prédicats en ligne comme interface symbolique pour séquencer les compétences et surveiller leur exécution, s'approchant ainsi d'une forme de planification symbolique intégrée. Les auteurs montrent que la génération jointe améliore à la fois la qualité des actions produites et la classification des prédicats, deux métriques qui se renforçaient rarement dans les approches précédentes. Ce travail s'inscrit dans un débat actif entre approches purement neuronales (end-to-end) et approches hybrides neuro-symboliques pour la manipulation robotique. Les méthodes de Task and Motion Planning (TAMP) classiques atteignent une bonne compositionnalité mais nécessitent des modèles symboliques prédéfinis ; les politiques d'imitation modernes générealisent mal sans représentation intermédiaire explicite. PACTS tente de combler les deux, en apprenant les symboles depuis les données de démonstration plutôt qu'en les codant manuellement. Le code et les expériences sont annoncés sur le site du projet (planpacts.github.io), mais le préprint n'est pas encore évalué par des pairs, et aucun résultat de déploiement terrain ni partenaire industriel n'est mentionné à ce stade.

RechercheOpinion
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
2arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
3arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
4arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source