Aller au contenu principal
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
IA physiquearXiv cs.RO1sem

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement.

Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul.

Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

À lire aussi

Modèle d'action géométrique pour l'apprentissage de politiques robotiques
1arXiv cs.RO 

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Des chercheurs ont déposé le 16 juin 2026 sur arXiv (arXiv:2606.17046) le Geometric Action Model (GAM), une politique de manipulation robotique conditionnée par le langage naturel. L'architecture réutilise un modèle fondamental géométrique (GFM) pré-entraîné en le scindant en deux segments : les couches superficielles encodent les observations visuelles, tandis qu'un prédicteur causal inséré à la jonction génère des tokens latents futurs conditionnés sur les instructions textuelles, la proprioception et l'historique d'actions du robot. Les blocs restants du GFM décodent ensuite simultanément la géométrie future de la scène et les actions à exécuter via un backbone unique partagé. Sur une suite de benchmarks en simulation et sur robot réel incluant des tâches de manipulation en contact riche, GAM affiche selon ses auteurs une précision, une robustesse, une vitesse d'inférence et une compacité supérieures aux baselines VLA à large échelle actuellement en référence. Le problème central qu'adresse ce travail est le décalage entre les représentations 2D dominantes dans les VLA (vision-language-action models) et la nature tridimensionnelle des interactions physiques. Des systèmes comme Pi-0 et Pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) ou les modèles RT-X (Google DeepMind) opèrent principalement sur des espaces latents dérivés d'images 2D, ce qui les handicape pour les tâches de saisie précise, d'assemblage et de dépose sur surfaces contraintes. Ancrer la prédiction d'actions directement dans un espace géométrique 3D, avec une modification minimale du modèle fondamental sous-jacent, constitue le pari architectural de GAM. Si ces résultats résistent à une reproductibilité indépendante, ils valideraient l'hypothèse que des priors géométriques explicites améliorent la généralisation des politiques généralistes face au gap sim-to-real. Cette publication s'inscrit dans une course aux VLA généralistes lancée depuis RT-2 (Google DeepMind, 2023), où la majorité des acteurs industriels, dont Figure (Helix), Agility Robotics, 1X et Physical Intelligence, misent sur des transformers multimodaux sans encodage 3D explicite. En parallèle, plusieurs laboratoires académiques (Berkeley, Stanford, CMU) explorent l'intégration de représentations géométriques comme le Gaussian Splatting dans les politiques robotiques. GAM s'inscrit dans cette seconde tendance avec une proposition architecturale minimaliste. À ce stade, il s'agit d'un preprint arXiv non peer-reviewed, sans déploiement industriel ni partenariat hardware annoncé ; une validation sur des plateformes commerciales standards (UR, Franka) en dehors du laboratoire reste à démontrer.

IA physiqueOpinion
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
2arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
3arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint
4arXiv cs.RO 

Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint

Des chercheurs proposent ZPRL (Z-Perturbation Reinforcement Learning), une méthode d'adaptation en ligne de politiques robotiques pré-entraînées par imitation, évaluée sur huit tâches en simulation et quatre tâches en conditions réelles. Plutôt que de corriger directement les actions produites par le réseau, ZPRL introduit un module variationnel de goulot d'étranglement (Variational Information Bottleneck, VIB) qui extrait, lors de la phase d'entraînement hors ligne, une représentation latente compacte et orientée tâche à partir des embeddings d'observation. En ligne, la politique de base reste gelée : seul un résidu de perturbation dans cet espace latent est appris par apprentissage par renforcement, et ce résidu conditionne ensuite le générateur d'actions. Sur les quatre tâches de manipulation réelle testées, la méthode améliore le taux de succès moyen de 33,7 % par rapport aux politiques d'imitation de base, tout en produisant une exploration sensiblement plus fluide que les approches par résidus dans l'espace d'action. Ce résultat adresse un problème concret et documenté du déploiement robotique : les politiques entraînées par imitation comportementale (IL) souffrent d'une couverture de données limitée et d'un écart entre les conditions d'entraînement et celles du déploiement réel. L'ajustement fin par RL post-entraînement est une voie connue, mais les méthodes existantes qui opèrent directement dans l'espace d'action génèrent une exploration bruitée et structurellement pauvre, ce qui ralentit la convergence. ZPRL démontre qu'une interface latente compacte et alignée sur la tâche offre un point d'entrée plus efficace pour le RL, au prix d'une modification architecturale légère (le module VIB est dit "plug-and-play"). Pour les intégrateurs, cela ouvre la possibilité de personnaliser des politiques généralistes sur des cellules spécifiques sans reprendre un entraînement complet. La méthode s'inscrit dans un courant actif de recherche sur l'adaptation post-déploiement des politiques de manipulation, aux côtés des approches de type residual policy learning et des fine-tunings RL sur architectures de type diffusion ou flow-matching. ZPRL est précisément instancié sur des politiques à flow-matching, une architecture en vogue depuis les travaux de Pi0 (Physical Intelligence) et des frameworks comme RoboMimic. Les auteurs, dont les affiliations ne sont pas précisées dans l'abstract, ont publié une page projet avec vidéos de démonstration. Les résultats restent à confirmer à plus grande échelle et sur des manipulateurs plus variés, les quatre tâches réelles constituant une validation encore limitée.

IA physiqueOpinion
1 source