Dossier OpenVLA / RT-X

184 articles

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO IA physiqueOpinion

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

Dossier OpenVLA / RT-X

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

FrameSkip : apprendre à partir de moins de frames mais plus informatifs dans l'entraînement des modèles VLA

Unifier les actions du robot dans le référentiel caméra

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

Modèle du monde multimodal pour interactions physiques : prédictions visuelles et tactiles simultanées pour une précision accrue

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

ECHO : mémoire hiérarchique continue pour les modèles vision-langage-action (VLA)

Premover : contrôle VLA rapide en agissant avant la fin des instructions

GuidedVLA : spécialisation de l'attention pour cibler les facteurs pertinents d'une tâche dans les modèles VLA

Découverte de modes comportementaux pour l'affinage de politiques génératives multimodales

REI-Bench : les agents incarnés peuvent-ils comprendre des instructions humaines vagues pour planifier des tâches ?

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Auto-cohérence guidée par la géométrie pour l'IA physique

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Retrieve-then-Steer : mémoire de succès en ligne pour l'adaptation à l'inférence des VLA génératifs

NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

HiVLA : un système de manipulation incarnée hiérarchique centré sur l'ancrage visuel

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

ElasticFlow : une politique à horizon temporel élastique pour la manipulation guidée par le langage

CapVector : des vecteurs de capacité transférables dans l'espace paramétrique pour les modèles VLA

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

LaST-R1 : un nouveau paradigme de raisonnement physique atteint 99,9 % de succès sur le benchmark LIBERO

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Large Video Planner permet un contrôle robotique généralisable

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable