Dossier NVIDIA GR00T

203 articles

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO IA physiqueOpinion

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Des chercheurs ont déposé en mai 2026 sur arXiv un papier proposant "VLAs-as-Tools", une architecture modulaire pour dépasser les limites des modèles vision-langage-action (VLA) sur des tâches robotiques à long horizon. Le principe repose sur une division des rôles : un agent VLM (vision-language model) de haut niveau prend en charge la planification temporelle, l'analyse de scène et la récupération sur erreur, tandis qu'une famille d'outils VLA spécialisés exécutent chacun une sous-tâche physique bornée. Une interface dédiée expose la sélection explicite d'outils et un retour de progression en cours d'exécution, permettant au planificateur de se reconfigurer sur événement plutôt que de surveiller le robot en continu. Pour entraîner ces outils spécialisés à suivre fidèlement les invocations de l'agent, l'équipe propose TAPT (Tool-Aligned Post-Training), qui construit des unités d'entraînement alignées et s'appuie sur des adaptateurs résiduels par famille d'outils. Appliqué au modèle π0.5 de Physical Intelligence, ce pipeline améliore le taux de succès de 4,8 points sur LIBERO-Long et de 23,1 points sur RoboTwin, et augmente la fidélité d'invocation de 15,0 points mesurée par le Non-biased Rate. Ce résultat s'attaque à l'un des goulots d'étranglement les mieux documentés des VLA : leur incapacité à enchaîner des séquences d'actions longues et hétérogènes sans dérive ou blocage. Le gain de 23,1 points sur RoboTwin est particulièrement significatif, ce benchmark simulant des tâches de manipulation complexes proches des conditions industrielles. Là où les approches précédentes soumettaient en boucle le contexte complet au modèle planificateur, VLAs-as-Tools découple strictement planification et exécution, ce qui réduit la latence de replanification et évite la saturation du contexte. Pour un intégrateur ou un COO industriel, cela signifie que des fondations généralistessont en train de franchir le seuil des workflows multi-étapes sans orchestration comportementale ad hoc -- territoire jusqu'ici réservé aux systèmes classiques de type BT ou FSM. Il faut néanmoins souligner que les résultats restent confinés à la simulation : aucune validation sur hardware réel n'est présentée dans le papier. π0.5 est le modèle VLA généraliste de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine, Chelsea Finn et d'autres anciens de Google et Berkeley, avec plus de 400 millions de dollars levés. Pi est l'un des rares acteurs à proposer un VLA pré-entraîné sur données réelles à large échelle, en concurrence directe avec GR00T N2 de NVIDIA, les efforts de Google DeepMind, et les approches open-source comme OpenVLA (Stanford). La course se joue désormais sur la généralisation zero-shot et la robustesse hors distribution, deux critères que les benchmarks actuels n'évaluent que partiellement. Les auteurs annoncent la publication du code, ouvrant la voie à l'adaptation de TAPT sur d'autres VLA de base; une validation sur plateforme réelle, annoncée implicitement comme prochaine étape, sera déterminante pour confirmer les gains observés en simulation.

Dossier NVIDIA GR00T

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Quels sont les facteurs limitants de la navigation vision-langage ?

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste

Unifier les actions du robot dans le référentiel caméra

AttenA+ : corriger l'inégalité des actions dans les modèles fondation pour la robotique

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

D-VLA : un cadre d'apprentissage par renforcement distribué et asynchrone à haute concurrence pour les modèles vision-langage-action

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Diffusion coordonnée : générer des comportements multi-agents sans démonstrations multi-agents

ACSAC : acteur-critique à taille de segment adaptative avec réseau-Q à Transformer causal

Kairos : un système de déploiement extensible pour l'IA physique

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

Large Video Planner permet un contrôle robotique généralisable

Genesis AI publie GENE-26.5 : un robot humanoïde réussit enfin à préparer des œufs brouillés à la tomate

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

Revue complète des modèles du monde pour l'apprentissage robotique

Galbot lance LDA-1B, un modèle du monde-action en open source

Hexagon et Schaeffler vont déployer 1 000 humanoïdes Aeon dans leur réseau d'usines mondial

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner