Dossier OpenVLA / RT-X — page 2

168 articles · page 2 sur 4

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

51arXiv cs.RO IA physiqueOpinion

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

Dossier OpenVLA / RT-X — page 2

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Transformer de décision conditionné par objectif pour l'apprentissage par renforcement hors ligne multi-objectifs

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

RLDX-1 : rapport technique

Combler le fossé entre les corps : édition vidéo inter-embodiment disentangled

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

STEP : politiques visuomotrices pré-initialisées avec prédiction de cohérence spatiotemporelle

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Anticipation-VLA : résolution de tâches incarnées à long horizon par génération de sous-objectifs

Planification heuristique à base de LLM pour la navigation robotique dans des environnements dynamiques, intégrant la conscience sémantique du risque

IA incarnée et interprétabilité causale : comprendre pour mieux généraliser dans les modèles VLA

Extraire la récompense cachée dans les politiques de diffusion

Being-H0.7 : un modèle du monde-action en perspective égocentrique

VLBiMan : une démonstration unique guidée par vision-langage permet la manipulation robotique bimanuelle généralisable

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

MotuBrain : un modèle du monde avancé pour le contrôle robotique

FASTER : repenser les VLA de flux en temps réel

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

Diffusion hybride pour la planification symbolique et continue simultanée

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Un cadre d'apprentissage autonome en boucle fermée piloté par LLM pour robots confrontés à des tâches inédites en environnement ouvert

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique

Planification VLA à horizon étendu par conditionnement sur traces

Du bruit à l'intention : ancrage des politiques VLA génératives par ponts résiduels

PokeVLA : un modèle vision-langage-action compact enrichi d'une connaissance globale du monde

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé

StableIDM : stabilisation du modèle de dynamique inverse face à la troncature du manipulateur par raffinement spatio-temporel

ReFineVLA : des politiques robotiques généralistes renforcées par raisonnement multimodal via fine-tuning guidé

XEmbodied : un modèle fondation aux indices géométriques et physiques renforcés pour les environnements incarnés à grande échelle