Aller au contenu principal
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
IA physiquearXiv cs.RO2sem

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables.

L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul.

CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

À lire aussi

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines
1arXiv cs.RO 

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

Des chercheurs ont soumis sur arXiv (2601.04061v2, janvier 2026) un framework appelé CLAP, pour Contrastive Latent Action Pretraining, conçu pour entraîner des modèles Vision-Language-Action (VLA) généralistes à partir de vidéos humaines non étiquetées. Le pipeline repose sur deux étapes: un module Act-VAE construit d'abord un vocabulaire d'actions exécutables à partir de trajectoires robotiques existantes, puis un apprentissage contrastif aligne les transitions visuelles extraites de vidéos humaines sur ce vocabulaire latent, pseudo-étiquetant ainsi ces vidéos sans collecte téléopérée supplémentaire. Sur cette base, CLAP-NTP est entraîné comme VLA autorégressif combinant démonstrations robotiques réelles et vidéos humaines étiquetées. Pour le déploiement, CLAP-RF ajoute une tête à flux rectifié (Rectified Flow) permettant la prédiction de chunks d'actions continus à faible latence, couplée à une régularisation dite Knowledge Matching qui préserve les connaissances sémantiques préentraînées lors du fine-tuning sur domaine cible. L'obstacle central des VLA généralistes reste la rareté des données robotiques étiquetées face à l'abondance de vidéos humaines disponibles en ligne. Les approches antérieures de type Latent Action Models tentaient d'exploiter ces vidéos mais encodaient du bruit visuel plutôt que des compétences de manipulation réelles, un problème qualifié d'enchevêtrement visuel (visual entanglement). CLAP contourne cette limitation en ancrant l'espace latent sur des trajectoires physiquement fondées via l'apprentissage contrastif, sans reconstruire l'apparence. Pour les intégrateurs industriels, la promesse concrète est de réduire le coût de collecte téléopérée, estimé à plusieurs milliers de dollars par heure, tout en améliorant la généralisation à de nouveaux objets sans démonstrations robotiques exhaustives. Les résultats expérimentaux rapportés montrent de bonnes performances face aux baselines comparatives, mais la validation externe reste à confirmer. Le domaine des VLA est en pleine effervescence depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Helix (Figure AI), tous confrontés à la même pénurie de données étiquetées exploitables. Google DeepMind a exploré des voies similaires avec des travaux comme UniSim. CLAP se distingue en proposant une approche plus physiquement ancrée que les méthodes purement génératives ou reconstructrices. Ce preprint n'a pas encore été évalué par les pairs et n'annonce aucun déploiement en production. Les prochaines étapes naturelles seraient une validation sur un éventail plus large de plateformes robotiques ainsi qu'une comparaison systématique avec les Diffusion Policies, méthodes actuellement dominantes sur les benchmarks Open X-Embodiment.

IA physiqueActu
1 source
Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue
2arXiv cs.RO 

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Une équipe de chercheurs a publié MVP-LAM (Multi-ViewPoint Latent Action Model), une méthode visant à améliorer le pré-entraînement des modèles vision-langage-action (VLA) à partir de vidéos humaines non étiquetées. Le problème ciblé : les actions latentes apprises depuis des vidéos mono-vue encodent des indices visuels propres à l'angle de caméra, plutôt que la sémantique réelle du mouvement. MVP-LAM impose un objectif de reconstruction inter-vues (cross-viewpoint reconstruction) : une action latente extraite depuis une caméra doit prédire l'évolution de la scène telle que vue depuis une autre caméra. Évalué sur le jeu de données Bridge V2, le modèle produit des actions latentes dont l'information mutuelle avec les vraies actions de référence dépasse celle des baselines, y compris en conditions hors-distribution. Ces représentations améliorées se traduisent par de meilleures performances de manipulation en aval sur plusieurs benchmarks standards. Le code et les checkpoints entraînés sont disponibles publiquement. La contrainte géométrique multi-vues a un impact direct pour les intégrateurs : un modèle pré-entraîné sur des actions latentes robustes au changement de point de vue devrait mieux résister au gap entre démonstration et déploiement réel, notamment dans des cellules robotiques où la position des caméras diffère entre collecte de données et production. MVP-LAM valide aussi l'usage de larges corpus vidéo non supervisés (vidéos internet, archives industrielles) sans démonstrations téléopérées : la cohérence inter-vues remplace partiellement le signal proprioceptif, réduisant le coût de collecte des données d'entraînement. Le pré-entraînement VLA depuis des vidéos non annotées s'inscrit dans la continuité de travaux comme RT-2 (Google DeepMind), UniPi, et plus récemment pi-0 (Physical Intelligence) ou OpenVLA. Ces approches partagent l'ambition d'exploiter des données vidéo à grande échelle pour doter les robots d'une compréhension généraliste du mouvement avant fine-tuning sur tâches spécifiques. MVP-LAM apporte une contribution méthodologique en renforçant la qualité des pseudo-labels d'action, une étape souvent négligée au profit de l'architecture des modèles aval. Il s'agit d'un travail académique sans déploiement industriel annoncé, mais dont la disponibilité du code facilite la reproduction et l'adaptation sur d'autres plateformes robotiques.

IA physiqueOpinion
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

IA physiqueOpinion
1 source
Apprentissage de la continuation native pour les politiques de flux par découpage d'actions
4arXiv cs.RO 

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion
1 source