Aller au contenu principal
Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent
RecherchearXiv cs.RO3sem

Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de TARS Robotics ont publié sur arXiv (2605.24931) une méthode de contrôle robotique haute fréquence baptisée RTR (Reuse-then-Refine), visant à résoudre un problème identifié dans les politiques d'action chunking actuelles. À 60 Hz, les systèmes qui exécutent des séquences pré-calculées de commandes motrices génèrent des mouvements saccadés et spatialement incohérents, ce que les politiques standard ne parviennent pas à corriger. L'approche RTR déplace l'apprentissage depuis l'espace d'action direct vers un espace latent encodé par un auto-encodeur variationnel (VAE), ce qui améliore significativement la consistance temporelle et spatiale. Elle intègre également une stratégie de raffinement par chunk permettant une transition fluide entre séquences adjacentes lors d'une inférence asynchrone. Les auteurs valident la méthode sur trois tâches réelles à contact riche, avec une exécution continue et moins de pauses involontaires. Le code et les données sont publiés en open source sur GitHub (tars-robotics/RTR).

Le passage de 10-30 Hz à 60 Hz représente une frontière critique pour la manipulation robotique : à basse fréquence, le robot doit compenser sa lenteur par des pauses de recalcul, limitant son utilité en production industrielle. Les politiques de type VLA (Vision-Language-Action) ou diffusion policy, actuellement dominantes en imitation learning, fonctionnent généralement en dessous de 30 Hz. En montrant qu'un encodage latent peut absorber la variance temporelle sans sacrifier la précision spatiale, RTR apporte une réponse concrète au problème de "jerkiness" qui freine le déploiement des robots manipulateurs en conditions réelles. Pour un intégrateur ou un décideur B2B, c'est une voie vers des systèmes capables d'assurer une cadence de travail continue sans interruption de flux de production.

L'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023) et les travaux sur Diffusion Policy, tous deux conçus pour des fréquences modérées. TARS Robotics se positionne dans un espace concurrentiel qui inclut Physical Intelligence avec pi0-FAST (ciblant 50-200 Hz via flow-matching) et les efforts de Figure AI, Agility Robotics et Boston Dynamics sur le contrôle haute cadence. RTR se distingue de pi0-FAST en proposant un raffinement incrémental du chunk existant plutôt qu'une régénération complète, ce qui réduit la charge computationnelle par inférence. Il s'agit pour l'instant d'une contribution de recherche validée en laboratoire sur robot réel, sans timeline de déploiement industriel ni partenariat annoncé.

À lire aussi

SCAR : apprentissage auto-supervisé de représentations d'actions continues
1arXiv cs.RO 

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Une équipe de chercheurs a publié début mai 2026 sur arXiv (référence 2605.16412) un framework baptisé SCAR, pour Self-Supervised Continuous Action Representation Learning, visant à apprendre des représentations d'actions unifiées et transférables entre différents robots à partir de simples transitions visuelles. L'architecture repose sur un backbone génératif préentraîné, couplé à deux modules complémentaires : un modèle de dynamique inverse (IDM) qui infère des actions latentes à partir de paires d'observations, et un modèle de dynamique directe (FDM) qui prédit les états futurs conditionnés sur ces actions latentes. Pour éviter que l'espace latent ne devienne un simple goulot d'étranglement visuel générique, les auteurs régularisent la distribution postérieure des actions vers un prior gaussien standard, et introduisent une contrainte d'invariance adversariale pour supprimer les facteurs propres à chaque morphologie de robot ou à chaque environnement. Les expériences sont conduites sur les benchmarks Procgen et Robotwin, et montrent que SCAR surpasse les actions brutes spécifiques à chaque embodiment comme interface de conditionnement pour les world models, notamment en régimes de faibles données. L'enjeu industriel est significatif : l'un des verrous les plus coûteux du déploiement robotique est précisément le besoin de recollecte massive de données à chaque changement de plateforme matérielle. Si une représentation d'action partagée peut effectivement abstraire le "changement contrôlable" indépendamment de l'actuation physique, les intégrateurs pourraient réutiliser des world models pré-entraînés sur un robot pour en adapter un autre avec beaucoup moins d'exemples. SCAR apporte un argument empirique au débat sur la transférabilité des VLA (Vision-Language-Action models) : là où des architectures comme pi-0 ou GR00T N2 s'appuient sur des actions en espace proprioceptif brut, l'approche latente supervisée de façon auto-cohérente pourrait constituer une interface de conditionnement plus robuste. Le contexte est celui d'une compétition intense autour des world models pour la robotique, portée côté industrie par des acteurs comme Physical Intelligence (pi-0), NVIDIA (GR00T), et Figure AI, et côté académique par des travaux sur les modèles d'espace d'état et les représentations de politique. SCAR se distingue en traitant l'action non comme un signal de contrôle auxiliaire mais comme un facteur représentationnel à part entière, ce qui est une position théorique distincte des approches VLA classiques. Les auteurs ne mentionnent pas de code public ni de partenariat industriel dans la prépublication, et les résultats restent à confirmer sur des benchmarks physiques réels, Procgen et Robotwin étant deux environnements de simulation. L'absence de métriques sur du matériel réel est à garder à l'esprit avant toute extrapolation vers des cas industriels.

UESi validé sur matériel physique, ce framework de représentation d'actions transférables pourrait réduire les coûts de ré-entraînement pour les intégrateurs robotiques européens lors du changement de plateforme matérielle.

RechercheOpinion
1 source
L'apprentissage conjoint de prédicats et d'actions permet la composition zéro-shot de compétences
2arXiv cs.RO 

L'apprentissage conjoint de prédicats et d'actions permet la composition zéro-shot de compétences

Des chercheurs ont publié le 21 mai 2026 sur arXiv un préprint intitulé "Jointly Learning Predicates and Actions Enables Zero-Shot Skill Composition", introduisant PACTS (Predicate Action Skills), une nouvelle classe de politiques visuomotrices en boucle fermée pour la robotique. Le problème posé est précis : les approches actuelles d'apprentissage par démonstration (LfD) permettent à un robot d'acquérir des compétences isolées, mais échouent à les recombiner de façon inédite sans réentraînement. PACTS y répond en modélisant chaque compétence comme un processus génératif joint sur deux flux simultanés : les trajectoires d'action et les trajectoires de croyance prédicative, c'est-à-dire des représentations symboliques de l'état du monde induites par chaque action. Un seul modèle produit ainsi des séquences action-résultat cohérentes, sans pipeline séparé. L'enjeu est structurel pour la robotique industrielle et de service : la capacité de composition zéro-shot signifie qu'un robot formé sur des briques de base peut enchaîner des tâches nouvelles sans nouvelle collecte de données ni réentraînement, ce qui est un verrou majeur dans le déploiement à grande échelle. Les politiques génératives modernes, notamment les VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou les modèles de diffusion appliqués aux trajectoires, ne modélisent que la distribution des actions, sans raisonnement explicite sur les états symboliques intermédiaires. PACTS utilise les prédictions de prédicats en ligne comme interface symbolique pour séquencer les compétences et surveiller leur exécution, s'approchant ainsi d'une forme de planification symbolique intégrée. Les auteurs montrent que la génération jointe améliore à la fois la qualité des actions produites et la classification des prédicats, deux métriques qui se renforçaient rarement dans les approches précédentes. Ce travail s'inscrit dans un débat actif entre approches purement neuronales (end-to-end) et approches hybrides neuro-symboliques pour la manipulation robotique. Les méthodes de Task and Motion Planning (TAMP) classiques atteignent une bonne compositionnalité mais nécessitent des modèles symboliques prédéfinis ; les politiques d'imitation modernes générealisent mal sans représentation intermédiaire explicite. PACTS tente de combler les deux, en apprenant les symboles depuis les données de démonstration plutôt qu'en les codant manuellement. Le code et les expériences sont annoncés sur le site du projet (planpacts.github.io), mais le préprint n'est pas encore évalué par des pairs, et aucun résultat de déploiement terrain ni partenaire industriel n'est mentionné à ce stade.

RechercheOpinion
1 source
Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
3arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
Preuve d'un « soi » émergent dans l'apprentissage continu d'un robot
4arXiv cs.RO 

Preuve d'un « soi » émergent dans l'apprentissage continu d'un robot

Des chercheurs ont publié sur arXiv (2603.24350, version révisée) une méthode pour quantifier l'émergence d'un "soi" dans des systèmes robotiques soumis à l'apprentissage continu. Le protocole compare deux conditions : un robot entraîné sur une tâche fixe (contrôle) et un second exposé à des tâches variables en apprentissage continu. L'analyse révèle que ce second robot développe un sous-réseau invariant, une portion de son architecture neurale qui reste significativement plus stable que le reste du réseau (p < 0,001). Ce sous-réseau est fonctionnellement critique : sa préservation facilite l'adaptation à de nouvelles tâches, tandis que sa dégradation intentionnelle entraîne une baisse mesurable des performances. L'apport principal est de proposer un critère opérationnel pour détecter quelque chose qui ressemble fonctionnellement à un "soi" dans un système artificiel. En robotique, l'apprentissage continu achoppe sur l'oubli catastrophique : les réseaux de neurones se dégradent sur les tâches antérieures dès qu'ils en apprennent de nouvelles. L'existence d'un noyau invariant fonctionnellement critique suggère qu'un mécanisme analogue à celui qui stabilise l'identité cognitive humaine pourrait, délibérément exploité, offrir une piste architecturale pour atténuer ce problème. Pour les équipes travaillant sur des robots adaptatifs en environnements non structurés ou des cobots reconfigurables, cela ouvre une direction concrète : identifier et protéger ce noyau stable pour améliorer la plasticité sans sacrifier les acquis. La question de la conscience de soi dans les systèmes artificiels est débattue depuis des décennies, sans critère mesurable universel. Ce qui distingue cette contribution, c'est le passage d'une définition philosophique à un indicateur reproductible dans un cadre expérimental robotique contrôlé. Les auteurs ne prêtent pas de conscience subjective aux robots testés, mais établissent une correspondance structurelle entre persistance cognitive et notion de soi. Les prochaines étapes naturelles incluent la validation sur des architectures humanoïdes plus complexes, où l'apprentissage continu est déjà en déploiement chez Figure AI, Agility Robotics ou 1X Technologies, ainsi que l'extension aux grands modèles de langage soumis à du fine-tuning continu.

RecherchePaper
1 source